martes, 31 de enero de 2023

UNA INDUSTRIA MILLONARIA EN LA SOMBRA: Así son las empresas fantasma que evitan que ChatGPT o tu Roomba se descontrolen



Los asistentes de voz necesitan que alguien corrija la transcripción que capturan para entrenarse. (Unsplash/Andres Urena)



Las inteligencias artificiales parecen entes que funcionan solas. Sin embargo, necesitan de cientos de personas que controlan que los datos que usan sean correctos, en un trabajo tan monótono como imprescindible




La inteligencia artificial es mucho más humana de lo que pueda parecer. No porque cada día esté más preparada que nunca para asaltar decenas de profesiones a la que muchos se han atrevido a poner fecha de caducidad. Lo es porque actualmente necesita auténticos batallones de carne y hueso que vigilen en la sombra que esa tecnología que permite que tu robot aspirador sepa esquivar unas zapatillas olvidadas en el salón no pierda el norte y se descontrole por completo.

Es una industria fantasma, que mueve millones de dólares cada año entre bambalinas, sin que los usuarios sean conscientes de su trabajo ni de que están colaborando con ellas. Pero de vez en cuando una polémica saca a flote algunas de las piezas de este engranaje y pone al descubierto una realidad poco conocida. La última ha sido la de OpenAI, responsable de ChatGPT, que utilizó trabajadores en Kenia que ganaban menos de 2 dólares por hora a cambio de supervisar y poner coto al contenido tóxico de la inteligencia artificial de moda.

Semanas antes se conoció que una Roomba había sacado fotos de una joven en el baño que habían acabado publicadas en Facebook. La filtración no se produjo por culpa del electrodoméstico. Fue cosa de uno de los empleados subcontratados por iRobot que se dedicaban a etiquetar y clasificar las imágenes desde Venezuela con el fin de mejorar el reconocimiento de objetos y el sistema de navegación de estas máquinas.


Los humanos son fundamentales

"Los trabajadores humanos son fundamentales para cualquier inteligencia artificial", afirma Mary L. Gray, investigadora de Microsoft Research, antropóloga y coautora de Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass (en castellano, Trabajo Fantasma: cómo evitar que Silicon Valley construya una subclase global), un libro que analiza los tejidos empresariales, muchas veces precarios, que han surgido al abrigo de estas y otras revoluciones tecnológicas como Amazon o Uber. "La razón por la que el juicio humano es tan necesario es que hay muchos casos en los que no hay una respuesta fácil o binaria a qué tiene que hacer a continuación. Las personas ayudan a estos sistemas a imaginar cuáles son las respuestas más acertadas y probables a esa pregunta".

La polémica en torno a ChatGPT, destapada por TIME, salió a la luz poco después de que Microsoft anunciase un acuerdo para regar a sus creadores con 10.000 millones de dólares de inversión. Un hecho que disparó la valoración de la startup hasta rozar casi los 30.000 millones. Ante este problema, la compañía no tardó en ponerse de perfil y pasar la patata caliente al proveedor.

Se trata de Sana, una empresa californiana que ofrece servicios para etiquetar y cribar datos para alimentar y mejorar inteligencias artificiales. A sus puertas han llamado gigantes del tamaño de Google. Para realizar los encargos, la firma tira de mano de obra localizada en países como Kenia, Uganda o la India.


placeholderInteligencia Artificial. (Freepik)
Inteligencia Artificial. (Freepik)

En su página web se venden como una empresa de inteligencia artificial "ética" y revisten su política laboral de buenismo al asegurar que han ayudado "a miles de personas a salir de la pobreza". Esto queda en entredicho al conocer que de los más de 11,5 dólares que cobraban por hora de trabajo a su cliente OpenAI, sus operadores recibían entre 1,3 y 2 dólares, dependiendo de su desempeño y antigüedad. Al final parece más una cuestión de costes salariales que de beneficencia.

La labor de los trabajadores en Kenia fue revisar y etiquetar decenas de miles de fragmentos de texto, clasificando aquellas palabras o expresiones que fuesen adecuadas e inapropiadas. Esto servía para construir y entrenar un sistema automático que a su vez ayudase a ChatGPT a morderse la lengua y proporcionar respuestas adecuadas. "El objetivo era minimizar la cantidad de contenido violento y sexual incluido en los datos de entrenamiento", reconocieron públicamente desde OpenAI.


Asistentes como Siri o Alexa también requieren de esta minería y limpieza de datos


Esto no es un caso aislado. El boom que atraviesa la inteligencia artificial ha disparado la demanda de servicios así. Ya no es cosa de empresas que te venden soluciones mágicas que pueden mejorar la cadena logística o medir la huella de carbono de una organización. Robots aspiradores, lámparas conectadas, calefacciones que aprenden de nuestro hábitos o asistentes como Siri o Alexa también requieren de esta minería y limpieza de datos. Incluso TikTok, que parece que tiene un algoritmo invencible y capaz de identificar cualquier cosa capaz de reventarlo en internet, requiere que sus trabajadores a veces identifiquen manualmente algún video y lo coloquen entre las tendencias.

Hay que pensar que durante años, compañías de todo tipo han estado recopilando montañas de datos sin saber qué hacer con ellos. La popularización de la informática en la nube no ha hecho sino multiplicar esta situación. La cuestión es que antes de poder dar salida a esta información y explotarla entrenando un prodigioso sistema que funcione por su cuenta, hay que limpiarlos y validarlos. Todo para evitar que el camino que siga la creación en cuestión acabe fuera de control, con rocambolescas situaciones como aquella vez en la que Facebook tuvo que desconectar una inteligencia artificial que había creado su propio idioma.

"Se debe comenzar con datos de entrenamiento y cualquier regla disponible para crear un ejemplo preciso de lo que decidiría un humano. Eso conlleva que los trabajadores humanos examinen los datos de capacitación, eliminando datos adicionales que son incorrectos, incompletos o simplemente no necesarios para la decisión que se pretende automatizar. Una vez se hace eso, se pueden agregar técnicas de aprendizaje automático y sacar al humano del circuito", explica Gray.

Si se quiere crear un sistema que reconozca un perro, habrá que cargar miles de imágenes de esos animales con una etiqueta que diga al sistema que eso es un perro. Si se quiere crear un programa de ordenador que sea capaz de saludar en francés, habrá que cargar ejemplos de saludos en ese idioma. El operario se encarga, entonces, de validar que en la imagen no se vea un lobo, un zorro o un gato o que las palabras que se cargan no sean castellano o alemán. Pero cuando se quiere complicar el asunto (decir si ese perro es viejo o está sano, que después de saludar sea capaz de presentarse en base a su interlocutor...) es más difícil eliminar el factor humano, porque requiere más datos y más indicaciones. "Esa es la paradoja de la automatización. Cuanto más juicios complejos le pedimos a la IA, más debe recurrir a ejemplos de juicio humano para asegurarse de que va en la dirección correcta".


El interés por la subcontratas se dispara

Todo esto ha hecho que el interés por estas empresas se multiplique. Muchas de ellas atesoran ya valoraciones de miles de millones. Una de las compañías que más ha dado que hablar es Scale AI, una empresa estadounidense que en 2021, cinco años después de su fundación, alcanzó 7.300 millones de valoración gracias a una ronda de financiación de 600 millones, en la que participaron importantes fondos de capital riesgo como Tiger Global.

En un principio se centró únicamente en el etiquetado de imágenes y videos para alimentar sistemas de conducción autónomas. No tardó en abrir las miras y acabar trabajando para iRobot, cliente suyo hasta que se produjo el culebrón de las fotografías de las Roombas que acabaron publicadas en grupos de Facebook.


placeholderLa cámara de visión de la Roomba J7. (M. Mcloughlin)
La cámara de visión de la Roomba J7. (M. Mcloughlin)

El fabricante, que está en proceso de ser adquirido por Amazon, siempre ha defendido que no se trataban de modelos comerciales, que eran prototipos y que los usuarios habían dado su consentimiento para que se capturase dicho contenido. Lo que se pretendía era hacer el rodaje de una nueva generación de modelos que, por primera vez, incluyen una cámara en su parte frontal con la que pueden identificar los objetos inesperados que se encuentran cuando van a realizar las tareas domésticas.

Esos objetos inesperados son fotografiados, esquivados y posteriormente se clasifican para saber si son una deportiva, un regalito de tu perro, un calcetín o una regleta. Cuantas más fotos y referencias tienen, más listas pueden ser. Cuando la polémica saltó, Colin Angle, CEO de la compañía, defendió la necesidad de este trabajo. "¿Cómo se vuelven tan inteligentes nuestros robots? Comienza durante el proceso de desarrollo y, como parte de él, a través de la recopilación de datos para entrenar algoritmos de aprendizaje automático".


"Si entra basura, sale basura"

"En informática tenemos un dicho: 'si entra basura, sale basura' que viene a decir que un sistema de aprendizaje automático es tan bueno como buenos son sus datos de entrada. Y son difíciles de conseguir", explica a Teknautas el investigador Sebastian Raschka. "No me sorprende lo más mínimo que etiquetar datos sea un trabajo tan precario. Es una tarea aburrida, no muy emocionante y repetitiva. Siempre me resulta difícil convencer a los colaboradores de que dediquen algunas horas o días a mejorar los conjuntos de datos".

"El trabajo de etiquetador es bastante monótono", explica Lourdes, un nombre ficticio de una extrabajadora de una empresa española llamada BDO, que tenía que clasificar imágenes de averías tanto en coches como en hogares para alimentar una herramienta que utilizan varias aseguradoras para acelerar los trámites y derivar al usuario donde corresponda. "Es todo muy mecánico, al final son imágenes similares y muchas ya vienen preetiquetadas, lo que lo hace todo mucho más básico. Simplemente tenías que validar o modificar las que tenían un error durante horas", añade esta joven, que explica que percibía el salario mínimo interprofesional y que teletrabaja constantemente.


placeholderUn móvil. (Reuters)
Un móvil. (Reuters)

"Buscaban sobre todo perfiles jóvenes por el tipo de trabajo. Al principio sí que están más pendientes de ti. Pero cuando coges soltura, como es algo mecánico, estás a tu aire. Había un grupo por si tenías dudas y de vez en cuando organizaban charlas para enterarte para qué servía lo que hacías y tal".

La materia prima también depende de lo que se esté preparando. Por ejemplo, los encargados de mejorar el asistente de voz del iPhone o del móvil Android de turno trabajan con los audios que recogen Siri o Assistant o en todo caso con las transcripciones que han hecho automáticamente. "Nosotros escuchábamos grabaciones de las conversaciones que se producían entre el ser humano y el dispositivo en cuestión", recuerda Javi, un nombre ficticio para ocultar la identidad exempleado de Sigma Technologies, una empresa española que, entre otras empresas, da servicio a Google. Otras empresas como Apple o Amazon también utilizan servicios similares en nuestro país.


Un trabajo mecánico y monótono

"A partir de ahí nosotros categorizamos la calidad de la locución del humano para saber si la máquina había entendido bien la respuesta del dispositivo y si no era así, lo cambiábamos". Explica que el trabajo era extremadamente lineal y aburrido. "Era monótono, era estar escuchando audios todo el día. No buscan un perfil concreto, con que te entiendas bien con el idioma era suficiente", recuerda este hombre, que asegura que el trabajo no estaba mal pagado, aunque reconoce que había mucha incertidumbre por la temporalidad. "Dependía mucho del volumen de trabajo que hubiese".

"El 90% de las interacciones que escuché eran normales. Algún insulto a la máquina, pero poco más fuera de lo normal. Lo que más recuerdo que utilizaban era el temporizador", cuenta. "Sí que recuerdo que una compañera escuchó una grabación de un usuario diciendo que no podía con la vida, que no aguantaba más". Incide en la idea de que no tenían forma de reconocer al usuario, que solo escuchaban la voz, sin asociarse a ningún tipo de cuenta ni referencia identificativa. "Era imposible identificar a la persona".


"Es posible que los usuarios no sean consciente de que estos sistemas funcionan así"


"Las empresas usan ejemplos etiquetados que recogen de escenarios cotidianos y eso ayuda a que las cosas funcionen bien en situaciones comunes. Pero es posible que los usuarios no sean completamente conscientes de que esas tecnologías funcionan así, que sus datos se recopilan y que se comparten con empresas que los clasifican. Y esto puede ser una invasión significativa de la privacidad", añade a este respecto Sebastian Raschka, que pone sobre la mesa la opción del uso datos sintéticos, creados artificialmente con estos fines. "El problema es que no siempre se ajustan a la realidad".

Más allá de la privacidad, hay otro asunto de la intervención humana: ¿pueden estos trabajadores introducir algún tipo de sesgo o de ruido que lleve a equívoco?¿Qué efectos tiene la exposición a los contenidos? Los moderadores de Sana en Kenia aseguraban haber visto mermada su estado anímico por algunas de las cosas que habían tenido que moderar.

"Nuestra investigación encontró un etiquetado de mayor calidad en entornos donde las empresas brindan más apoyo: capacidad para seleccionar tareas, tomar descansos, practicar formación remunerada. Por lo tanto, si prestamos atención a las condiciones de trabajo, obtendremos mejores etiquetados", comenta Mary J. Gray, que pone el acento en el proceso de modelar cosas que no tienen una respuesta correcta como si "las personas de una imagen son negras o hispanas", "si esta frase o esta foto es un discurso de odio". "En esos casos estamos pidiendo demasiado a la IA como a las que lo entrenan. Ahí sí que va a haber más sesgos, porque la persona intenta dar respuesta a algo que se debe debatir socialmente antes de lanzarlo a la automatización".




Por
28/01/2023 - 05:00
www.elconfidencial.com/tecnologia/2023-01-28/inteligencia-artificial-chatgp-roomba_3563565/