viernes, 26 de julio de 2024

De "crucial" a "esencial": Estas son las palabras que revelan que un texto está escrito con IA

 



  • Un analista ha extraído las palabras que, en contraste, más se repiten en los textos generados con inteligencia artificial sobre los textos escritos por humanos



Desde que ChatGPT hizo que la inteligencia artificial generativa se abriera a todo aquel que quisiera, ha existido el debate. ¿Hasta qué punto son detectables los textos generados con inteligencia artificial?

La respuesta es complicada. Muchos programas antiplagio y anti-IA utilizado por Universidades han demostrado no ser eficientes del todo, pero también está claro que los textos generados por los grandes modelos de lenguaje cuentan con unos patrones que, a puro de usarlos, tienden a ser repetitivos.

"En resumen", como diría ChatGPT

Inicios anodinos con frases como "en el contexto" actual, su afán por adjetivar todo lo posible, y párrafos que cierran con coletillas como "en resumen" o "en conclusión" eran algunos de los más evidentes.

En Estados Unidos, un análisis había probado que la palabra 'delve' (ahondar o sumergirse) había disparado su presencia en papers académicos desde la llegada de la IAG. Pero ahora, el analista y consultor SEO español Natzir Turrado ha extraído qué palabras son también las que más se repiten en español.



Para el análisis, publicado en Twitter, Turrado ha comparado las bases de datos de algunos de los modelos más populares con un corpus de textos escritos por humanos.

En concreto, se basó en los modelos Llama3-8b-8192, Llama-3-sonar-small-32k-chat, Gemma-7b-It, GPT3.5 Turbo, GPT4, GPT4o. Pero mayoría del corpus con modelos GPT. El tamaño total para el análisis fue de 360.337.739 tokens generados con IA.

El resultado es que a la IA le gustan mucho palabras como "crucial", que es 6.413 veces más frecuente en texto generados con IA que en textos naturales; "desafíos", o "exploraremos", ambas unas 2.000 veces más frecuentes.

"En este artículo exploraremos…"

En su análisis también ha extraído los trigramas, construcciones de tres palabras más frecuentes, donde aparecen por ejemplo "este artículo exploraremos", "consideraciones éticas" o "comenzando a desempeñar".

Los trigramas indican una estructura estándar y predecible en los textos de IA, lo cual es útil para mantener la coherencia en los resultados, pero también hace que muchas veces carezcan de fluidez.

La pregunta que queda por responder es: ¿hasta qué punto podrán las IAs cerrar esta brecha en el futuro?