miércoles, 8 de agosto de 2018

Las máquinas también tienen prejuicios

Las máquinas también tienen prejuicios
La presencia creciente de mujeres en profesiones vinculadas a ciencia e ingeniería puede ayudar a reducir los sesgos (Patrick T. Fallon / Bloomberg)


Los programas de traducción automática perpetúan los sesgos sexistas dominantes en cada lenguaje


El traductor de Google y otros sistemas de traducción automática están hechos a base de algoritmos que se han ido perfeccionando en el último medio siglo. Pero a pesar de los avances en procesamiento natural del lenguaje, las máquinas no están libres de errores ni de ideología. Estos programas se nutren de textos escritos en distintos idiomas para aprender de las equivalencias de una lengua a otra: desde las actas del Parlamento Europeo y de la Organización de las Naciones Unidas (ONU) hasta los subtítulos de películas, las noticias, el apéndice de vocabulario de las guías de turismo, los libros más vendidos como la Biblia y las entradas en Wikipedia, aunque los artículos varíen de una lengua a otra.
Todos estos textos están escritos originalmente por personas que tienen sus prejuicios y que calan, a su vez, en los sistemas de traducción. Por ejemplo, si uno le pide al traductor de Google que traduzca del castellano al turco “él es niñero” y “ella es doctora”, la marca de género del español desaparece porque el turco es un idioma neutro. Pero si luego, uno escribe de nuevo las dos frases resultantes en turco para pedir a la misma máquina la traducción al español, el algoritmo propone una realidad distinta: “Ella es niñera” y “él es doctor”. El sentido de la frase ha cambiado porque estas máquinas funcionan a partir de observar y extraer la relación más probable entre palabras de los textos de los que se alimentan, en los que lo más frecuente es que un doctor sea un hombre, porque aparece en masculino y acompañado del artículo determinante el, y que la niñera sea una mujer.

“La traducción sin revisión humana lleva a la catástrofe”, según la intérprete M. Busqué

“Estadísticamente correcto no significa correcto. Creo que, si no vemos esto como un problema, esta cuestión no se solucionará ni habrá ninguna mejora”, denuncia en su blog Jecelyn Yeen, programadora y directora de la comunidad internacional Women Who Code en Kuala Lumpur (Malasia). Un equipo de investigadores de la Universidad de Boston (Estados Unidos) y del centro de investigación de Microsoft advirtió hace dos años en un congreso sobre esta disciplina en Barcelona que “la aplicación ciega del aprendizaje automático corre el riesgo de amplificar los sesgos presentes en los datos”, ya que los agregadores de noticias presentan estereotipos de género “preocupantes” y su uso generalizado tiende a amplificar estos prejuicios.

Las palabras para designar profesiones pertenecen a un grupo donde impera el sexismo. El anterior equipo internacional de científicos elaboró una lista de las ocupaciones más masculinizadas y feminizadas, a partir de apariciones en prensa, para demostrar el sesgo sexista de las máquinas.

Los programas tienden a asociar la medicina a hombres y la enfermería a mujeres

Entre los trabajos que habitualmente desempeñan mujeres había enfermeras, recepcionistas, peluqueras y limpiadoras. En cambio, los hombres tienden a ser visibilizados como arquitectos, expertos, ilusionistas y guerreros. Luego, los investigadores pidieron a distintas personas que clasificasen las mismas profesiones como masculinas, femeninas o neutras para comparar los resultados humanos con los de las máquinas. Vieron una correlación obvia de estereotipos y propusieron un algoritmo nuevo

para corregir el sesgo de género.
“Las máquinas aprenden a ser sexistas, porque los textos con los que las entrenas son sexistas”, coincide en señalar Marta Ruiz Costa-Jussà, investigadora Ramon y Cajal del grupo de Tecnologías y Aplicaciones del Lenguaje y el Habla (TALP, por sus siglas en catalán) en la Universitat Politècnica de Catalunya (UPC).
Incluso las personas que se dedican profesionalmente a la traducción presentan sesgos similares. Maya Busqué, intérprete de conferencias, traductora freelance y miembro de la Associació Professional de Traductors i Intèrprets de Catalunya (Aptic), hizo la prueba entre unos cuantos colegas al preguntarles cómo traducirían una frase del inglés al español que contenía la palabra scientist ( científico/a). Todos tradujeron la profesión en su versión masculina, menos una traductora que hizo una búsqueda rápida en internet a partir de los elementos de contexto de la oración para discernir si era hombre o mujer. “Huir de los sesgos sexistas y no traducir sistemáticamente términos como scientist, researcher y biologist en masculino no me parece un capricho ni una pérdida de tiempo, sino una necesidad y un acto de justicia”, cuenta en un artículo de la revista de la Asociación Española de Traductores, Correctores e Intérpretes.
Más allá de la cuestión de género, los sistemas de traducción automática se enfrentan a muchos más retos. ¿Qué pasa con las lenguas minoritarias? ¿El inglés domina por encima del resto de idiomas? Quien encadena una pregunta tras otra es Anna Dot, estudiante de doctorado en la Universitat de Vic, donde reflexiona sobre cómo determinados artistas utilizan el error de la traducción automática para crear su obra –a menudo de denuncia–. “No debemos ignorar el error, sino cuestionarlo”, plantea la joven investigadora que considera que muchos textos en los que se basan las máquinas también tienen “una ideología muy politizada”, porque el lenguaje “no es neutral” y está lleno de sesgos que corresponden a “los grandes prejuicios de cada sociedad”.
De hecho, el primer investigador que se focalizó únicamente en la traducción automática, el filósofo, matemático y lingüista israelí Yehoshua Bar-Hillel, del Instituto de Tecnología de Massachusetts (MIT), ya consideraba que ninguna cantidad de datos podría ser suficiente para resolver todas las ambigüedades de los textos. “En el lenguaje lo habitual son las excepciones”, apunta José Adrián R. Fonollosa, catedrático e investigador del TALP en la UPC, que pone como ejemplo una cuestión lingüística de actualidad: no es lo mismo un político preso que un preso político.
Aunque muchos de los errores se han subsanado, sobre todo a partir de la introducción de técnicas de aprendizaje profundo ( deep learning) que imitan las redes neuronales, también cuesta más trazar los fallos por las infinitas operaciones de estos sistemas. “La traducción automática sin revisión humana nos conduce a la catástrofe”, dice Busqué, que defiende el valor de las personas allí donde las máquinas no piensan.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.