sábado, 9 de agosto de 2025

Google ahora puede crear mundos con unas palabras (y sirve para más de lo que parece)




Foto: Reuters.



DeepMind presenta Genia 3 un nuevo modelo de IA capaz de crear mundos virtuales con una simple instrucción. El anuncio es clave para entrenar robots, agentes inteligentes y corregir sus fallos



Ala velocidad a la que avanzan los modelos de inteligencia artificial es probable que tengas la sensación de que te estás perdiendo algo o que todos están haciendo lo mismo. La mayoría de desarrollos de inteligencia artificial generativa están centrados en texto o imagen, pero Google DeepMind quiere ir mucho más allá: construir mundos enteros con unas solas palabras. No se trata de generar una imagen estática de un bosque o un castillo medieval con un prompt en un segundo, sino de crear un entorno vivo, interactivo y coherente, donde puedas moverte, explorar, tocar cosas y ver cómo reaccionan a tus decisiones. En tiempo real. Ese es el propósito detrás de Genie 3, la última evolución del ambicioso modelo de Google DeepMind, que aspira a convertirse en una especie de "motor gráfico generativo" donde las simulaciones se crean y se adaptan sobre la marcha, sin guión previo ni diseño humano tradicional.

Esta nueva versión del modelo es capaz de generar mundos virtuales con una densidad de elementos y un grado de realismo sin precedentes dentro de la IA generativa. Ecosistemas con flora y fauna animadas, ciclos de luz y fenómenos naturales (como el comportamiento del agua) forman parte de estas simulaciones que no sólo se ven convincentes, sino que además son navegables e interactivas. Es decir, puedes entrar dentro del mundo generado y moverte a través de él, con total libertad y respuesta dinámica. Y todo esto con una resolución de 720p y una duración que puede mantenerse durante varios minutos.

En su versión anterior, Genie 2, el modelo ya apuntaba maneras. Permitía transformar imágenes bidimensionales en escenarios tridimensionales con una consistencia sorprendente y respuestas inteligentes a las acciones del usuario. Reconocía al personaje principal, le dotaba de movimiento y generaba entornos coherentes que se mantenían durante un minuto. Pero Genie 3 sube varios peldaños más: introduce simulaciones persistentes, más ricas y complejas, donde el usuario o los agentes pueden interactuar en tiempo real, y con una sensación de continuidad mucho mayor.

Según explica DeepMind, el modelo genera cada fotograma de forma secuencial a partir de la descripción textual inicial del mundo, combinada con las acciones que va tomando el usuario. Esto significa que no hay una historia predefinida ni escenarios programados por humanos: el mundo evoluciona y se adapta con cada interacción, como si estuviéramos dentro de una partida infinita de Minecraft, pero sin bloques y construida únicamente con instrucciones y decisiones.

La interacción no se limita a los controles básicos, sino que también puede incluir comandos de texto que desencadenan lo que DeepMind llama "eventos mundiales". Por ejemplo, podrías escribir "empieza a llover" o "una criatura extraña aparece al fondo del bosque" y ver cómo el entorno reacciona y se adapta al nuevo escenario. Esta capacidad de control es especialmente útil para probar el comportamiento de agentes de inteligencia artificial, enfrentándose a situaciones inesperadas y observando cómo se adaptan.

Ahí está, de hecho, uno de los principales objetivos de la herramienta: servir como un entorno seguro, flexible y controlado para el entrenamiento de robots o sistemas autónomos. Al generar mundos coherentes y con lógica interna durante varios minutos, Genie 3 permite establecer secuencias de acción más largas, necesarias para que los agentes completen tareas más complejas o desarrollen estrategias. "No solo ofrece un amplio espacio para entrenar agentes como robots y sistemas autónomos", dicen desde DeepMind, "sino que también permite evaluar su rendimiento y explorar sus debilidades".

A pesar de sus avances, Genie 3 sigue teniendo limitaciones importantes. Los agentes que operan dentro del entorno aún tienen un rango de acción bastante restringido, no se ha implementado la interacción entre múltiples personajes o inteligencias independientes, y la duración máxima de las simulaciones es aún reducida, de apenas unos minutos. Tampoco es posible recrear con fidelidad ubicaciones reales, lo que por ahora aleja a Genie de aplicaciones más concretas como la simulación de ciudades, fábricas o entornos educativos.

Pero incluso con estas restricciones, Genie 3 marca un punto de inflexión en la evolución de los modelos generativos. No estamos simplemente ante una IA que pinta paisajes bonitos o responde preguntas: estamos empezando a ver cómo estos sistemas aprenden a construir mundos habitables, con reglas, coherencia y consecuencias. Es una nueva frontera que mezcla de videojuego, simulador físico y motor de IA y que sirve para señala hacia dónde puede avanzar la inteligencia artificial en los próximos años: hacia la generación de experiencias completas, dinámicas y vivas.


Por