Ilustración: Sofía Sisqués (EC Diseño)
Google presenta un asistente de IA capaz de localizar tus gafas y OpenAI uno que ríe, coquetea o ironiza. Estos avances pueden provocar la idea equivocada de que una IA más lista que los humanos está muy cerca como vende Altman
Estos días, probablemente, nadie se ha acordado de Blake Lemoine en Silicon Valley, el exingeniero de Google que fue despedido por asegurar que una inteligencia artificial tenía consciencia y revelar conversaciones que había mantenido con el programa para tratar de demostrarlo. Tanto la multinacional como varios expertos en la materia salieron en tromba a desmentir al joven, que ahora bien podría estar tirándose de los pelos en su casa después de la frenética semana que ha vivido esta industria.
Menos de dos años es el tiempo que ha pasado desde la mediática salida de Lemoine para atajar las especulaciones sobre el grado de humanidad que podían alcanzar las máquinas hasta que el máximo responsable de la tecnológica, Sundar Pichai, tenga que responder en público y reflexionar abiertamente sobre si, en algún momento, los humanos podrían llegar a experimentar una relación sentimental con una IA al estilo de la película Her.
"Debemos estar preparados para ello, para que ocurra", afirmó el directivo en un encuentro con la prensa al que asistió este periódico en el marco del I/O, la conferencia anual de desarrolladores. En la cinta, estrenada en 2013, el personaje interpretado por Joaquin Phoenix acaba enamorado hasta las trancas de una suerte de Siri hipervitaminada. El romance, por cierto, acaba abruptamente cuando la empresa tiene que desconectarla y el protagonista se entera de que el suyo no era el único romance que mantenía.
"Antes de nada, dejadme puntualizar que estoy enamorado de mi mujer", bromeó Pichai ante la audiencia, quien recordó que el avance tecnológico siempre provoca nuevos casos de uso. "En la medida en que se vuelva más poderosa, más personas la utilizarán para conversar", añadió, aludiendo a que esta tecnología puede ser "muy positiva", por ejemplo, en el campo de la accesibilidad para personas con "problemas de comunicación". "Habrá quien la utilice para recordar a sus seres queridos cuando no estén vivos. Y sí, existe la posibilidad real de que haya personas que entablen relaciones profundas con estos asistentes de IA", alertó el directivo, insistiendo en la necesidad de que estos avances se hagan de manera "prudente" y "responsable".
OpenAI marca el relato
El gran jefe de la gran G tuvo que hablar de este tema apenas unas horas después de que la compañía presenta en sociedad el proyecto Astra. Lo hizo en la Google I/O, su cumbre anual de desarrolladores, celebrada esta semana en Mountain View. Se trata de un asistente virtual impulsado por inteligencia artificial que va a ser capaz de ver, escuchar y entender el mundo que nos rodea, pudiendo responder a preguntas y atender peticiones al respecto.
En el video de muestra se ve a una chica que le pregunta varias cosas sobre la oficina en la que está. Incluso en un momento, la joven pregunta dónde se ha dejado las gafas y el sistema es capaz de hilar y recordar dónde estaban. Cuando se las pone, la interfaz aparece en las lentes, algo que se ha entendido como una confirmación tácita de que los californianos van a resucitar uno de los fracasos más sonados de la historia, las Google Glass. A falta de que haya noticias en ese sentido, la compañía se limitó a decir que algunas de las capacidades de Astra llegarán a los usuarios de pago de su inteligencia artificial generativa, Gemini Advanced, a finales de año.
Es más que probable que Google no tuviese intención de que la discusión en torno a Astra discurriese por esos derroteros y hubiese preferido que la atención se centrase más en la hoja de ruta que ha diseñado para llevar IA generativa a todos sus productos, desde el buscador hasta Gmail, Maps o Drive. Pero, por desgracia, el relato ya le vino impuesto. Concretamente, por OpenAI, que un día antes celebró un evento online de 26 minutos para presentar GPT-4o, una nueva versión de su modelo de lenguaje que es lo que da vida a esa inteligencia artificial conocida como ChatGPT.
La clave reside en la "o", que hace referencia a "omni". En realidad, lo que han conseguido es, al igual que el proyecto Astra, una inteligencia artificial multimodal, que pueda entender texto, imágenes, videos y audio y expresarse no solo por texto, sino también hablando. Además, lo han hecho reduciendo la latencia y el tiempo que tarda en dar una respuesta al usuario hasta el extremo.
Por si estos avances de por sí no eran suficientes, la empresa de Sam Altman recubrió este asistente con una humanidad inédita hasta ahora. La máquina hablaba con una voz cálida, que muchos han encontrado parecida a la de Scarlett Johansson, precisamente la actriz que pone voz a la máquina en Her.
El nuevo GPT-4o no solo hablaba con voz humana, entonaba, era irónica, bromeaba e incluso flirteaba con uno de los ingenieros encargados de la presentación. Por si la comparativa no estaba ya servida en bandeja, Altman se encargó de darle el empujoncito final, tuiteando "Her" en su cuenta de X (antes Twitter). Periódicos como el New York Times o el WSJ cogieron ese guante y el mensaje (y la campaña de promoción) quedó amplificado. A diferencia de Google, OpenAI ha puesto ya parte de sus novedades en circulación. Por ejemplo, el modelo de lenguaje GPT-4o ya está a disposición de los usuarios de pago en todo el mundo. El asistente multimodal llegará en unas semanas.
A vueltas con la AGI
"GPT-4o es una revolución de los asistentes que Google, Apple o Samsung no han conseguido. En relativamente poco tiempo, ha sido capaz de sacar un producto infinitamente mejor que el de la competencia", analiza Asier Gutiérrez-Fandiño, exingeniero de IA en el Barcelona Supercomputing Center, asesor para el Gobierno en IA y director de LHF Labs, quien destaca el tiempo de respuesta, la posibilidad de interrupción, el poder hablar de lo que se quiera y la multimodalidad. "Esta última es la que podrá permitir en un futuro muy próximo pedirle cosas a nuestro dispositivo como, por ejemplo, que ponga la foto que te sacaste el otro día en la playa como foto de perfil". Sobre Astra, este experto pone el acento en la posibilidad de que ahora se haga realidad un dispositivo como las Google Glass.
La humanización que ha logrado OpenAI ha vuelto a abrir una vez más el debate de cuán cerca está eso que se conoce como inteligencia artificial general (AGI), esa inteligencia artificial que sea capaz de superar a la humana e incluso aprender cosas por su cuenta.
La última vez que se debatió tan abiertamente en torno a esto fue precisamente hace poco más de seis meses, cuando Altman fue despedido por el consejo de administración de la compañía por pérdida de confianza. Aunque finalmente, cinco días después, Altman volvió a su puesto, las filtraciones apuntaron a que la polémica vino por el conocido como proyecto Q Star, que es como supuestamente llaman internamente al proyecto para alcanzar una inteligencia artificial de esas características. Por cierto, que esta semana Ilya Sutskever, confundador y científico jefe de OpenAI; y su mano derecha Jan Leike han abandonado la compañía, dejando huérfano el equipo de seguridad que dirigían y que estaba encargado de estudiar los riesgos de una hipotética AGI. Leike ha diseccionado los motivos de la marcha en un hilo en X, donde aclara que se marchan porque la mayoría de recursos de la empresa se han dedicado al desarrollo de productos y misiones como la suya han quedado fuera de las prioridades. Es decir, no es que haya visto un riesgo actual, sino que ha visto que no hay recursos para investigar los riesgos futuros.
Ahora, en plena resaca por la presentación del Her de OpenAI, Altman ha vuelto a agitar este asunto y se ha atrevido a pronosticar que quizá estemos tan solo "a uno o dos avances" de lograr una inteligencia artificial general. Algo que sus principales rivales en esta carrera ven con cautela o escepticismo.
Demis Hassabis, fundador de DeepMind y mano derecha de Pichai en todo lo relacionado con la IA, se limitó a decir que Astra "es un paso adelante" pero evitó relacionarlo o poner distancia hasta esa superinteligencia que iguale o supere a la humana.
En el pasado, Hassabis ha sido crítico con Altman y su estrategia para alcanzar este salto tecnológico. Cuando el creador de OpenAI aseguró a principios que pretendía recaudar 7.000 trillones de dólares para chips y así mejorar el entrenamiento, el cofundador de DeepMind vino a decir que hacen falta muchas más innovaciones más allá de sumar más y más potencia de cálculo.
La posición de Hassabis, por tanto, parece más cercana a la tercera voz en discordia y probablemente la más crítica: la de Yann LeCun, una de las figuras más prestigiosas y autorizadas del mundo de la IA y científico jefe de Meta, la empresa antes conocida como Facebook. Este informático franco-estadounidense cree que es difícil llegar a la AGI —un término que ha confesado detestar— y lo ve imposible a través de los grandes modelos de lenguaje —GPT, Gemini Pro, Llama— que actualmente se utilizan.
"Es asombroso cómo funcionan si los entrenas a escala. Pero son muy limitados. Son sistemas que alucinan, no entienden realmente el mundo real", comentaba en una entrevista con la revista Time. "Requieren enormes cantidades de datos para alcanzar un nivel de inteligencia que al final no es tan bueno. Y realmente no pueden razonar. No pueden plantear nada más que las cosas en las que han sido entrenados", añadía LeCun, quien además habitualmente suele recordar que los datos de texto disponibles para entrenar estos modelos de lenguaje "se están agotando".
Es inevitable preguntarse a quién hay que creer. ¿Es Hassabis demasiado precavido y LeCun un incrédulo o Altman está vendiendo la burra y exagerando las capacidades de GPT-4o para agitar esa idea de que están cerca de una IA increíblemente poderosa?
"No se puede perder de vista que tanto Hassabis como LeCun son científicos con una trayectoria tremenda. Altman es más empresario, con todas las diferencias, más cercano a la figura de Elon Musk", reflexiona José Luis Calvo, experto en inteligencia artificial y fundador de Diverger AI, a este respecto. "Dentro de que cualquier día te sorprenden con cualquier anuncio, yo supongo que Altman está exagerando de la misma manera que Musk hizo con la disponibilidad del coche autónomo".
Diferenciar sentimientos de inteligencia
Sobre lo visto esta semana, Calvo trata de establecer diferencias entre lo ocurrido con Lemoine —asegurar que una IA tiene consciencia— y lo que se ha visto esta semana con el asistente virtual de OpenAI. "Están relacionados, pero no es lo mismo. A día de hoy las máquinas no tienen consciencia y, bajo las tecnologías actuales, no hay indicio de que puedan tenerla". Además, resalta que a día de hoy no ve incentivos en la industria para trabajar en este sentido y que las máquinas tengan sentimientos.
Este experto también separa esa capacidad para detectar y expresar emociones de GPT-4o de un hipotético avance hacia una inteligencia artificial general. Apunta a que la identificación de emociones y la expresión por parte de las máquinas ya existía. "Puede ser más o menos creíble, pero es posible y mejorará". Una de las cosas que destaca Calvo es la mejora de la latencia —el tiempo en el que ChatGPT tarda en procesar y responder— lograda por OpenAI, que es un paso adelante para crear interacciones más cercanas a lo humano. "Que provoque sentimientos en el usuario, al igual que Her, entiendo que es inevitable y que no tiene que ver con la tecnología", reflexiona, a la par que define como muy llamativo lo que ha logrado OpenAI con la forma de hablar de la IA, aunque pide esperar a ver qué consigue con otros idiomas.
"A mí me gusta decir que AGI es un sistema de IA que es capaz de aprender cualquier tarea sin supervisión humana. No implica ni consciencia, ni sentimientos, ni voluntad", añade. Un buen ejemplo de esto es cómo a GPT-4o se le atragantan problemas sencillos para un ser humano, tal y como se ha podido ver estos días en X.
"Las cosas que damos por sentadas son muy difíciles para los ordenadores", aseguraba LeCun, quien sitúa este problema en lo que hay detrás de estos sistemas de IA generativa. El investigador sostiene que, aunque se entrene con todo el conocimiento de la historia de la humanidad, un gran modelo de lenguaje no tendría todavía el conocimiento y las habilidades que tiene un bebé de un año. "La gran mayoría del conocimiento humano no está expresado en texto. Está en la parte subconsciente de tu mente, que aprendiste en el primer año de vida antes de que pudieras hablar", explicaba.
"Un bebé aprende cómo funciona el mundo. Antes de llegar al nivel humano, vamos a tener que pasar por formas más simples de inteligencia. Y todavía estamos muy lejos de eso", sentenciaba, a la par que auguraba que mejorando el entrenamiento actual, impulsando cambios perceptivos y combinándolos con memoria a corto plazo y técnicas de planificación, "podríamos acercarnos a la inteligencia de un gato".
¿Se puede avanzar solo con potencia o hace falta más?
En resumen, lo que está en discusión es si la actual forma de entrenar las IA (los llamados LLM) puede sostener esa futura evolución hacia una AGI que pueda aprender sin participación humana. Por muy sorprendentes que sean las capacidades de los agentes vistos esta semana, no se puede obviar que han sido utilizados con una receta mejorada de los sistemas vistos hasta ahora. "No esperábamos que fuésemos a llegar tan lejos", confesaba Sergey Brin, cofundador de Google, en un corrillo informal con periodistas en el que estaba presente este periódico.
"Es increíble que podamos utilizar el mismo modelo (Gemini) para múltiples aplicaciones sin especializarlo o cambiarlo", añadió, a la par que reconocía que Gemini fue parte de una batería de experimentos y modelos de prueba, que finalmente ha llegado mucho más lejos. Aunque quedaron eclipsados por Astra y GPT-4o, hay dos anuncios clave relacionados con Gemini en el I/O y que pueden ser importantes de cara a lograr IA más capaces. Por una parte, el haber logrado que una de sus versiones —concretamente una para desarrolladores— que soporte dos millones de tokens de contexto, el máximo a día de hoy. Detrás de esta expresión tan poco sexy, hay un valor fundamental: el del tamaño de las fuentes que pueden manejar. No es lo mismo un pequeño texto de un folio (que se dividirá en un puñado de tokens) que la enciclopedia británica. Con el video y el audio se multiplica esta necesidad. El otro detalle, que pasó algo desapercibido, es que Astra demostró tener memoria, aunque en las breves demos posteriores no detalleron su capacidad de recordar.
La pregunta, vistas las mejoras actuales, es si se puede llegar aún más lejos únicamente añadiendo más potencia. "Los modelos son cada vez más capaces y esto se debe a que se está utilizando más cómputo y más datos", apunta Asier Gutiérrez-Fandiño que pone el ejemplo de Llama-3, el último lanzamiento de Meta AI. Se ha entrenado con 7 veces más texto y cuatro veces más código que su predecesor. Se han invertido 7,7 millones de horas de GPU Nvidia y han emitido el equivalente a 2.290 toneladas. "Hay una evidencia sobre la necesidad e idoneidad de escalar los datos y el cómputo para llegar a una mayor inteligencia de los sistemas", añade. El trabajo, explica este experto, es el de preguntarse si la arquitectura, el entrenamiento y este tipo de IA son sostenibles. "En vista de estas experiencias podemos decir que no lo son y figuras como LeCun coinciden", remata.
"Se está entendiendo la evolución de la IA como una regla de escala y realmente no podemos aseverar cuánto nos queda para llegar a esa IA que tenga el mismo nivel que una de nivel humano. Cada día la comunidad investigadora está haciendo más esfuerzos para construir evaluaciones que nos permitan conocer dónde estamos y cuánto nos queda por llegar, pero aún queda un largo camino".