La foto olvidada de ayer ...: El ‘boom’ de la inteligencia artificial puede estar al borde del colapso

domingo, 25 de agosto de 2024

El ‘boom’ de la inteligencia artificial puede estar al borde del colapso

¿Está la inteligencia artificial abocada al colapso?

Muchos expertos afirman que podríamos llegar a un 'colapso de los modelos' que explote la burbuja de la inteligencia artificial en 2026. ¿Es esto posible?

Los profetas de la inteligencia artificial (IA) y los medios de comunicación están pronosticando el fin del auge de la IA generativa, con rumores de un inminente colapso catastrófico de los modelos.

Pero,¿hasta qué punto son realistas estas predicciones? ¿Y qué es exactamente el colapso de modelos?

Debatido en 2023, pero popularizado más recientemente, el "colapso de modelos" se refiere a un escenario hipotético en el que los futuros sistemas de IA se vuelven progresivamente menos eficientes debido al aumento de datos generados por IA en internet.

La necesidad de datos

Los sistemas modernos de IA se construyen utilizando aprendizaje automático. Los programadores diseñan la estructura matemática subyacente, pero la verdadera "inteligencia" proviene de entrenar el sistema para imitar patrones en los datos.

Pero no se trata de cualquier dato. Los sistemas de IA generativa actuales necesitan datos de alta calidad, y en grandes cantidades.

Para obtener estos datos, grandes empresas tecnológicas como OpenAI, Google, Meta y Nvidia rastrean continuamente internet, recopilando terabytes de contenido para alimentar a las máquinas. Sin embargo, desde la llegada de sistemas de IA generativa útiles y ampliamente disponibles en 2022, cada vez más personas están subiendo y compartiendo contenido creado, en parte o en su totalidad, por IA.

En 2023, los investigadores empezaron a preguntarse si podían prescindir de los datos creados por humanos y depender únicamente de los datos generados por IA para el entrenamiento.

Hay grandes incentivos para que esto funcione. Además de proliferar en internet, el contenido creado por IA es mucho más barato que los datos generados por humanos. Además, recolectarlo en masa no presenta problemas éticos ni legales.

Sin embargo, los investigadores descubrieron que sin datos humanos de alta calidad, los sistemas de IA entrenados con datos generados por IA se vuelven cada vez menos eficientes a medida que cada modelo aprende del anterior. Es como una versión digital del problema de la endogamia.

Este "entrenamiento repetitivo" parece llevar a una reducción en la calidad y diversidad del comportamiento del modelo. Calidad aquí se refiere a una combinación de ser útil, inofensivo y honesto. Diversidad se refiere a la variación en las respuestas y a las perspectivas culturales y sociales representadas en las salidas de la IA.

En resumen: al utilizar tanto los sistemas de IA, podríamos estar contaminando la misma fuente de datos que necesitamos para que sean útiles.

Evitar el colapso

¿No pueden las grandes tecnológicas simplemente filtrar el contenido generado por IA? No realmente. Las empresas tecnológicas ya invierten mucho tiempo y dinero en limpiar y filtrar los datos que recopilan, y según un experto de la industria, a veces descartan hasta un 90% de los datos que recogen inicialmente para entrenar los modelos.

Estos esfuerzos podrían volverse aún más exigentes a medida que aumente la necesidad de eliminar específicamente el contenido generado por IA. Pero, lo más importante, es que a largo plazo será cada vez más difícil distinguir el contenido generado por IA. Esto hará que filtrar y eliminar datos sintéticos sea un esfuerzo de rendimiento decreciente (financieramente hablando).

En última instancia, la investigación realizada hasta ahora muestra que simplemente no podemos prescindir por completo de los datos humanos. Después de todo, es de donde proviene la "I" de la IA.

¿Nos dirigimos hacia una catástrofe?

Hay indicios de que los desarrolladores ya están teniendo que esforzarse más para obtener datos de alta calidad. Por ejemplo, la documentación que acompaña al lanzamiento de GPT-4 mencionaba a un número sin precedentes de personal involucrado en las partes relacionadas con los datos del proyecto.

También podríamos estar quedándonos sin nuevos datos humanos. Algunas estimaciones dicen que el conjunto de datos textuales generados por humanos podría agotarse sobre 2026.

Es probable que por eso OpenAI y otros estén compitiendo para asegurar asociaciones exclusivas con gigantes de la industria como Shutterstock, Associated Press y NewsCorp. Estos poseen grandes colecciones de datos humanos propietarios que no están disponibles fácilmente en internet.

Sin embargo, las perspectivas de un colapso catastrófico de modelos podrían estar exageradas. La mayoría de las investigaciones hasta ahora se centran en casos donde los datos sintéticos reemplazan a los datos humanos. En la práctica, es probable que los datos humanos e IA se acumulen en paralelo, lo que reduce la probabilidad de colapso.

El escenario futuro más probable también incluirá un ecosistema de plataformas de IA generativa relativamente diversas que serán utilizadas para crear y publicar contenido, en lugar de un modelo monolítico. Esto también aumentará la robustez frente al colapso.

Es una buena razón para que los reguladores promuevan una competencia saludable limitando los monopolios en el sector de la IA y financien el desarrollo de tecnología de interés público.

Las preocupaciones reales

También existen riesgos más sutiles derivados de un exceso de contenido creado por IA.

Una avalancha de contenido sintético podría no representar una amenaza existencial para el progreso del desarrollo de la IA, pero sí amenaza el bien digital público que representa internet (humana).

Por ejemplo, los investigadores encontraron una disminución del 16% en la actividad en el sitio web de codificación StackOverflow un año después del lanzamiento de ChatGPT. Esto sugiere que la asistencia de IA ya podría estar reduciendo las interacciones entre personas en algunas comunidades en línea.

La hiperproducción de contenido impulsada por IA también está dificultando encontrar contenido que no sea clickbait lleno de anuncios.

Se está volviendo imposible distinguir de manera fiable entre contenido generado por humanos y contenido generado por IA. Un método para remediar esto sería marcar o etiquetar el contenido generado por IA, como yo y muchos otros hemos destacado recientemente, y como se refleja en la legislación provisional del gobierno australiano.

Hay otro riesgo también. A medida que el contenido generado por IA se vuelve sistemáticamente homogéneo, corremos el riesgo de perder diversidad sociocultural, y algunos grupos de personas podrían incluso experimentar una desaparición cultural. Necesitamos urgentemente una investigación interdisciplinaria sobre los desafíos sociales y culturales que plantean los sistemas de IA.

Las interacciones humanas y los datos humanos son importantes, y debemos protegerlos. Por nuestro propio bien, y tal vez también para evitar el posible riesgo de un futuro colapso de modelos.

—

Aaron J. Snoswell es Investigador en Responsabilidad de IA, Universidad Tecnológica de Queensland. Puedes leer el artículo original en inglés aquí.

Este artículo fue publicado originalmente en The Conversation y traducido para Novaceno.

Por

Aaron J. Snoswell

24/08/2024 - 05:00

https://www.elconfidencial.com/tecnologia/novaceno/2024-08-24/inteligencia-artificial-colapso_3948124/

La Foto Olvidada de Ayer

Este blog no tiene fines comerciales ni de lucro y es totalmente apolítico.

Su función es la de reproducir informaciones recopilando noticias que se publican en algunos diarios del mundo: del Wall Street Journal al China Today, del ElPaís al Diario de Australia, de Yahoo on line a BBC o CNN.

Son noticias curiosas, olvidadas o, en contracorriente, que muchas veces pasan desapercibidas porque otros titulares acaparan nuestra atención y nos parecen más importantes. Como dicho antes, navegar en la blogosfera de internet, encontrar historias y opiniones diferentes a las que no llega nuestro periódico de cada día, tratar de que el periodismo "no sensacionalista" tenga un lugar en la actualidad al puro estilo "Reader's Digest", son la función de este blog.

El contenido de estas páginas como toda información en internet ha de ser contrastada y utilizada con fines legales.

Los autores son columnistas de prestigiosos periódicos o de agencias de prensa internacionales. Las opiniones son suyas y la traducción es responsabilidad del periódico que las publica.

La utilización o la interpretación que se haga a posterior de los artículos es únicamente bajo responsabilidad del lector.

Aquí no hay copyright, por eso, toda la información y las fotos son publicadas con su fuente de origen para que el autor tenga su merecido reconocimiento. (Si el autor no está de acuerdo y lo comunica al gestor, de la forma más rápida posible, se borrará su artículo o sus fotos).

Exclusión de garantías y responsabilidad:

el gestor del Blog "La foto olvidada de ayer" no puede garantizar la licitud, fiabilidad, exactitud, exhaustividad, actualidad de los contenidos.

El establecimiento de un hiperenlace o intercambio no implíca en ningun caso la existencia de relaciones entre el gestor del Blog y el propietario del lugar web con la que se establezca, ni la aceptación o aprobación de sus contenidos y servicios.

El gestor del Blog excluye toda responsabilidad en los sitios enlazados y no puede controlar y no controla que entre ellos aparezcan sitios de Internet cuyo contenido pueda resultar ilícito, ilegal, contrario a la moral o a las buenas costumbre o inapropiados.

El usuario, por tanto, debe extremar la prudencia en la valoración y utilización de la información, contenidos y servicios existentes en los sitios enlazados. Todo el contenido de este blog se publica a manera informativa únicamente y no debería considerarse como un sustituto de las indicaciones médicas de su propio doctor o profesional de la salud. El gestor de este Blog no se hace responsable de ningún diagnóstico hecho por un usuario basado en el contenido de este sitio. El gestor de este Blog no se hace responsable del contenido de ningún vínculo de internet externo mencionado, ni promociona ningún producto comercial o servicio mencionado o sugerido en ninguno de los sitios. Consulta siempre con tu médico general si tienes alguna duda sobre tu salud.

Según la consideración 18 del GDPR en vigor a partir del 25/05/2018, se da por entendido que esta regulación NO se aplicará cuando una persona está aplicando datos en una actividad doméstica o personal (como en mi caso) SIN conexión con actividades profesionales o comerciales (como es el caso de este blog). En cuanto a comentarios, procesado de datos, a su recolección, registro, almacenamiento, actualización o el hecho de compartirlos.... el gestor de este Blog no procede en ninguna de esas operaciones.

Este sitio utiliza cookies de Google para prestar sus servicios y analizar su tráfico. Tu dirección IP y user-agent se comparten con Google, juntos con las métricas de rendimiento y de seguridad, para garantizar la calidad del servicio, generar estadísticas de uso y detectar y solucionar abusos.

La foto olvidada de ayer ...

domingo, 25 de agosto de 2024

El ‘boom’ de la inteligencia artificial puede estar al borde del colapso

Translate

Wikipedia