Un móvil muestra la aplicación del foro Reddit.
(Flickr)
Los gigantes tech, hambrientos de datos para entrenar a sus modelos de inteligencia artificial, se han lanzado a comprar medio internet. Reddit es sólo la primera víctima
Aún no hay fecha oficial, pero en solo unos días vamos a asistir a una de las operaciones más sonadas en Internet de las últimas décadas. Reddit, uno de los foros más longevos de la red, se va a estrenar en Bolsa, en una operación que puede mover nada menos que 6.500 millones de dólares. Lo importante, sin embargo, no son los billetes, sino los datos.
Reddit ha llegado a un acuerdo millonario con Google para ceder su contenido al servicio de la inteligencia artificial. Y, como este, decenas de empresas como OpenAI o MidJourney están cerrando otros pactos similares para licenciar contenido de aquí y allá. Hasta hace poco, las empresas de IA estaban entrenando su tecnología con todos los datos que pescaban en la red, en lo que algunos especialistas han llamado el "mayor robo de la historia de internet". Cuestionadas ética y legalmente por esa práctica, han pasado a otra estrategia: comprar cualquier web que se ponga a tiro y disponga de ingentes cantidades de datos de usuarios.
Si durante milenios el oro fue la materia prima más valiosa y utilizada del mundo para comerciar, hoy los datos se han convertido en la nueva especie más cotizada de mercadeo, y más en un momento en el que suponen el principal “combustible” para el desarrollo de los sistemas de IA.
El problema es que, tras el boom inicial de la IA generativa, se ha hecho más que evidente que uno no puede ir por internet y usar lo que le dé la gana sin permiso. Ahí está la demanda en los tribunales de The New York Times contra OpenAI para recordárnoslo. En este caso, la primera demandó a la segunda por, supuestamente, usar sus extensos archivos sin permiso para entrenar chatbots. O el de Getty Images contra Stable Diffusion, por infringir de manera similar su copyright.
Ahora sí, por la vía legal, decenas de acuerdos (mutuos) se están produciendo en los últimos meses. Associated Press ha licenciado parte de sus archivos a OpenAI. Shutterstock ha firmado también un acuerdo de seis años con la misma para proporcionarle una inmensa base de datos de fotografías, videos y música. Y las conversaciones con CNN, Fox Corp y Time dan pistas de que un pacto similar es inminente. El objetivo de todos estos estrechones de manos de Sam Altman es siempre el mismo: alimentar con datos la maquinaria de sus chatbots como quien echa leña o carbón a un horno.
“El algoritmo al final bebe de la información que el ingeniero que entrena el algoritmo le proporciona. Cuanto mayor sea este entrenamiento, más fiables y certeros serán los resultados”, explica Eduard Blasi, Abogado especialista en Derecho Digital y divulgador en el canal TechAndLaw, a El Confidencial.
Reddit era un filón de oro, pero sin precio fijo
Pero ninguno de estos acuerdos hace sombra al que hace poco se firmó en las oficinas de Reddit. El mítico foro zanjaba hace unos días una relación comercial por valor de 60 millones de euros al año con una “gran empresa de inteligencia artificial”. Una que luego se desveló que era nada más y nada menos que Google, quien también quiere subirse al carro de la IA y que había ofrecido a Reddit una buena suma de dinero con tal de entrenar a su mimada Gemini. Y la alianza sorprende. Sobre todo teniendo en cuenta que Altman, que es el director ejecutivo de OpenAI, es también un importante accionista de Reddit, con el 8,7% de las acciones de la empresa.
A cambio, esta colaboración le dará a Google la “gasolina” que necesita para poner en marcha sus motores: vía libre a la API de datos de Reddit, que ofrece contenido en tiempo real desde la plataforma, y acceso a un vasto corpus de contenido en el foro. El anuncio llega después de que la compañía anunciara un cambio de su API que obligaba a pagar a las empresas que utilizaran sus archivos. “El conjunto de datos de Reddit es muy valioso. Pero no necesitamos darles gratis todo ese valor a algunas de las empresas más grandes del mundo”, señalaba su CEO, Steve Huffman.
Este nuevo muro de contención le valió al foro una protesta masiva en la que los usuarios, los moderadores de casi 9.000 subreddits, se rebelaron volviendo privados sus posts. Un golpe sobre la mesa que no sólo disminuyó la actividad del sitio web, sino que afectó de forma negativa a los resultados de búsqueda en Google. Un aviso de que si las cosas cambian, la última palabra al final la tendrán los propios usuarios.
“Los riesgos en torno a la privacidad que enfrentan los usuarios cuando se facilitan los datos a una tercera empresa es la pérdida de control de su información. Plataformas como Reddit tienen mucha información de los usuarios porque estos utilizan su plataforma a diario: vierten información de forma directa, aportando datos personales, pero también de forma indirecta mediante el uso de las propias aplicaciones y servicios. Todo eso nutre su increíble base de datos”, explica Blasi.
Este acuerdo se produce además no sólo en un contexto de intercambio masivo de datos, sino a pocos días de lo que será el lanzamiento de la tan esperada oferta pública de venta (OPV) de Reddit, su salida a bolsa. La compañía de San Francisco quiere cotizar en la Bolsa de Valores de Nueva York bajo el nombre "RDDT", y aunque no haya aún una fecha prevista, algunos medios anglosajones adelantan que ese debut podría llegar a finales de este mes. Será la primera vez en un lustro en el que una empresa de redes sociales sale a bolsa, después de que lo hiciera Pinterest en 2019.
Y no es un movimiento baladí. El portal cuenta con nada menos que 73 millones de usuarios diarios y más de 100.000 comunidades activas. Y sus resultados son excepcionales. En 2023 sus ingresos crecieron un 22%, 804 millones de dólares en comparación con los 666 millones de dólares que generaron en 2022.
Aunque también hay que tener en cuenta que Reddit está perdiendo mucho dinero por otros lados. El año pasado, su gasto en investigación y desarrollo (“dinero gastado principalmente en ingenieros y otros empleados dedicados a la investigación, el diseño y el desarrollo de productos nuevos”) ascendió a 439 millones de dólares, un sorprendente 55% de sus ingresos. En comparación, cuando Facebook salió a bolsa en 2012, la I+D representaba el 10% de sus ingresos. Y cuando Twitter lo hizo en 2013, la I+D representaba el 44%.
El consejero delegado de la empresa, Steve Huffman, lo pintaba de rosas en el folleto de colocación en la Comisión de Bolsa y Valores (SEC, por sus siglas en inglés): “Esperamos que la salida a Bolsa también aporte beneficios significativos. Nuestros usuarios tienen un profundo sentido de propiedad sobre las comunidades que crean en Reddit. Queremos que este sentido de propiedad se refleje en una propiedad real, que nuestros usuarios sean nuestros propietarios. Convertirnos en una empresa cotizada lo hace posible”.
Eso sí, la compañía también advertía en el comunicado de que esta acción podría experimentar ciertas oscilaciones de la cotización. Y avisaba del riesgo de convertirse en una acción “meme” a merced de sus foreros redditors (al puro estilo GameStop), con una “volatilidad extrema”.
Lo que viene: una salvación para las redes “muertas”
En la misma línea de negociaciones se encuentran Tumblr y WordPress, que están tanteando un posible acuerdo con las empresas de IA Midjourney y OpenAI, según han filtrado fuentes internas al medio estadounidense 404 Media. El motivo es también proporcionar datos de entrenamiento extraídos de las publicaciones de los usuarios, aunque los documentos filtrados no especifican los tipos de datos que se venderían a cada empresa ni si el acuerdo afectará sólo a publicaciones futuras en Tumblr o al contenido pasado.
Según este informe, Automattic, la matriz de Tumblr y WordPress, planea lanzar una nueva configuración que "permitirá a los usuarios optar por no compartir datos con terceros, incluidas empresas de inteligencia artificial" desde los ajustes de privacidad, una manera de brindarles a los usuarios cierta protección de su contenido.
“Según la normativa vigente, las empresas que reciban determinada información tras una venta deberán informar al usuario, los cesionarios, de que tienen esta información y de las condiciones del tratamiento. Y en todo momento el usuario tiene derecho a conocer quiénes son las empresas a las cuales se ha cedido la información y como se trata, incluso si se facilitan datos para entrenar a una IA. También puede oponerse o revocar un consentimiento ya prestado”, señala Blasi.
Se trata de una maniobra que no nos sorprende. Era cuestión de tiempo que Automattic comenzara a comercializar sus datos, sobre todo teniendo en cuenta el dineral que están perdiendo en Tumblr. En sus 17 años de historia, el sitio apenas ha sido rentable y no han logrado remontar la situación. Y como Tumblr, existen muchas otras empresas que han quedado obsoletas con el tiempo, con unas bases de usuarios muy poco activos, y que podrían encontrar en la IA su salvación para seguir siendo rentables. Pinterest es un claro ejemplo. Mientras los datos sigan ahí, el uso ya importa poco.
El problema de fondo de todas estas transacciones con el fin de alimentar y entrenar los modelos de IA es que cualquier persona en Internet puede convertirse en una especie de escaparate online (sea su cuenta de Tumblr, sus posts de Reddit o incluso un blog personal que ha montado en WordPress) y ver como el acceso a su contenido es vendido por la plataforma que lo aloja a grandes empresas de inteligencia artificial. Y eso encierra un escenario mucho más oscuro. Uno en el que la gran mayoría de datos presentes en Internet se concentren en unas pocas manos, conduciendo a un dominio monopolístico muy poderoso.
Al final, centralizar inmensos paquetes de datos bajo la propiedad de estos “terratenientes” del mundo virtual puede acabar apartando a los competidores más pequeños y afectar a la diversidad del mercado, planteando ciertas cuestiones sobre la privacidad y reduciéndonos a nosotros, los usuarios, a lo más bajo en importancia de la escala de valor. Que no se les olvide quién tiene el poder. Sin datos no hay IA, pero sin usuarios… ¿qué hay?