domingo, 6 de julio de 2025

La gran batalla de la IA empieza a despejarse: ya no vale el saqueo, ahora toca pasar por caja



Mark Zuckerberg, CEO de Meta, durante una audiencia en Washington, EEUU. 
(EFE)



Meta y Anthropic han salido airosas de dos batallas judiciales importantes por usar obras protegidas por copyright al entrenar sus modelos de IA. Sin embargo, se han dado cuenta de que hacer un 'sinpa' es insostenible




Durante años, las empresas de inteligencia artificial se lanzaron sobre internet como si fuera un buffet libre. Todo estaba servido y sin límites: libros, canciones, películas, artículos de prensa, ilustraciones. Y ellas lo devoraban todo para entrenar a sus modelos. Pero la fiesta está tocando a su fin. Lo que comenzó como esa cacería a escondidas de los datos ahora se ha convertido en una guerra legal y, más recientemente, en una excusa para cerrar acuerdos y establecer alianzas entre empresas. En un giro de los acontecimientos, Meta y Anthropic, dos de los grandes nombres de la IA, acaban de ganar importantes batallas judiciales por el uso de libros protegidos por derechos de autor para entrenar sus modelos. Pero aunque los jueces les dieron la razón —al menos en parte—, también han dejado claro qué se puede hacer y qué no.

Enfrentada a una demanda interpuesta por 13 autores —entre ellos, la humorista estadounidense Sarah Silverman— que acusaban a la compañía de usar sus obras protegidas por copyright, Meta salió airosa el pasado jueves, cuando trascendió que el juez federal Vince Chhabria le había dado la razón a la compañía de Mark Zuckerberg, afirmando que su uso de los libros entraba dentro del "uso legítimo" según la ley de EEUU.

El juez, sin embargo, quiso hacer un importante apunte: su fallo no es un cheque en blanco para la industria de la IA. Precisó que la victoria de Meta se debió, en gran parte, a que los demandantes no lograron demostrar con pruebas suficientes que la copia de sus obras por parte de Meta hubiera perjudicado el mercado de esos autores, un punto crucial en este tipo de disputas: "Los demandantes no presentaron ninguna prueba significativa sobre la dilución del mercado", recalcó Chhabria.

Tampoco escatimó en sarcasmo al abordar el argumento de Meta de que adherirse a leyes de derechos de autor con décadas de antigüedad sofocaría la innovación en una tecnología tan crucial. "Se espera que estos productos generen miles de millones, incluso billones de dólares, para las empresas que los desarrollan. Si usar obras protegidas por derechos de autor es tan necesario como afirman las empresas, encontrarán la manera de compensar a los titulares de los derechos", sentenció.

Pocas horas antes del fallo de Meta, otra gran tecnológica respiraba aliviada: Anthropic, la empresa detrás del chatbot Claude, recibió un respaldo judicial similar. El juez William Alsup concluyó que su actividad también entraba dentro del "uso legítimo", porque el objetivo era transformador: los modelos no copian literalmente el texto, sino que aprenden de él para generar algo nuevo. "Como cualquier lector que aspira a ser escritor", escribió el juez, "el sistema de IA no buscaba replicar, sino aprender". Pero no todo fueron buenas noticias. La justicia fue tajante al afirmar que la forma en que la empresa obtuvo más de 7 millones de libros —descargándolos de sitios piratas, las llamadas "bibliotecas fantasma"— no estaba protegida por la ley. Y ahora la empresa debe ir a juicio por ello.

Es casi irónico que a Anthropic le caiga este "marrón" legal pese a que haya intentado corregir el rumbo que seguía, contratando a Tom Turvey, una de las mentes maestras detrás de Google Books, la gigantesca biblioteca digital que logró capear años de batallas por derechos de autor. Con Turvey a bordo, Anthropic se lanzó a la compra masiva de libros (ahora sí, pagando por ello). Pero el juez no se ha andado con rodeos: "Comprar un libro que robaste previamente no te exime del robo". Una bofetada judicial que deja claro que el arrepentimiento a posteriori no borra las infracciones pasadas.


De la rapiña a los acuerdos y alianzas

Estas decisiones judiciales se producen en un contexto cada vez más tenso entre las tecnológicas y las industrias creativas. Durante años, las primeras han tratado internet como una despensa infinita en un fenómeno que ha sido descrito por algunos analistas como el "mayor robo de la historia de Internet". Urgidas por llegar antes que la competencia, consumieron sin freno cualquier cosa que pudieran transformar en datos. Empezaron con Wikipedia y Reddit, que sirvieron como una fuente que parecía interminable, pero cuando arramplaron con ella no les quedo otra que empezar a buscar en otros lados. El caso de The New York Times contra OpenAI es emblemático: el diario acusa al creador de ChatGPT de utilizar sus artículos sin permiso. Getty Images hizo lo mismo contra Stable Diffusion.

Esta nueva tendencia ilustra de manera muy clara que, por un lado, las tecnológicas necesitan ingentes cantidades de datos para entrenar a sus modelos de IA. Y, por otro lado, que los datos disponibles en internet se están terminando, la carne "fresca" ya está toda vendida. Y solo queda alimentarse de otras cosas. Lo dice un informe del instituto de investigación Epoch, que indica que en 2026 ya se habrán agotado todos los datos de alta calidad en la red. Sam Altman, director ejecutivo de OpenAI, reconocía que empresas de IA como la suya consumirían todos los datos "muy pronto".

Los directivos, abogados e ingenieros de Meta se replantearon incluso comprar la editorial de libros Simon & Schuster para conseguir obras escritas, aunque su decisión final fue que negociar licencias iba a llevar demasiado tiempo y dolores de cabeza. En varias grabaciones privadas filtradas a la prensa, Ahmad Al-Dahle, vicepresidente de IA de Meta, les dice a sus colegas que "Meta no podría igualar ChatGPT si no conseguían más datos que ellos" y reconocía que ya habían utilizado casi todos los libros, ensayos, poemas y artículos de noticias disponibles en inglés en Internet. En dicha conversación se mencionaba la posibilidad de comprar startups que hubieran recopilado grandes cantidades de datos e incluso contratar a trabajadores en África para resumir libros para esquivar el copyright.

No solo los escritores están preocupados. Hollywood ha empezado a tomar cartas en el asunto. Disney, NBCUniversal y otros estudios de peso han comenzado a lanzar ofensivas legales contra startups como Midjourney, que entrenan modelos generativos de imagen con películas, personajes y escenas icónicas sin licencia alguna. Disney, por ejemplo, ha ido a la guerra por personajes como Darth Vader y Deadpool. La compañía mandó notificaciones a Midjourney solicitando la retirada de material usado sin autorización y pidió respaldo a otras grandes productoras como Paramount para que se embarcaran juntas en este asunto.

En este contexto de pugnas legales, la industria ha comprendido que seguir navegando al borde de la ley es una estrategia insostenible. Las demandas aumentan, los datos escasean, y la presión pública no disminuye. Por eso, ahora la nueva tendencia es establecer acuerdos, licencias y alianzas. El "todo vale" de los primeros años de la IA ha muerto. OpenAI, por ejemplo, ha cerrado más de 20 acuerdos con medios como The Atlantic y Vox Media. También ha firmado contratos millonarios con Associated Press y Shutterstock. Google, por su parte, pagará más de 60 millones de dólares al año a Reddit para entrenar a su modelo Gemini con datos extraídos de los foros más populares de la red. Incluso Disney está abriendo la puerta a colaboraciones. Si bien no ha licenciado todo su catálogo, sí ha permitido el uso de la voz de Darth Vader en un chatbot del videojuego Fortnite.

Esta tendencia ha dado lugar a una nueva ola de startups que se dedican exclusivamente a tender puentes entre las industrias creativas y los gigantes de la IA. Nombres como Pip Labs, Vermillio, Created by Humans, ProRata, Narrativ y Human Native están desarrollando herramientas y plataformas que permiten a escritores, editoriales, estudios musicales y cineastas monetizar sus obras. Es un mercado que crece a pasos agigantados: desde 2022, estas empresas de licencias de contenido han captado la impresionante cifra de 215 millones de dólares en financiación, según Dealroom.co.

Como señala Dan Neely, cofundador de Vermillio (que ya colabora con pesos pesados como Sony Pictures y Sony Music): "La concesión de licencias de contenidos que no existen en la internet abierta será el próximo gran negocio". El objetivo de todos estos estrechones de manos es siempre el mismo: alimentar con datos la maquinaria de los modelos de IA como quien echa leña o carbón a un horno. The show must go on, aunque haya que pagar un extra por el camino.