sábado, 10 de agosto de 2019

Cómo las máquinas aprendieron a engañar a los humanos (y cómo esto nos podría ayudar)

póker
Durante décadas se pensó que el póker era un juego demasiado complejo para las computadoras.

Damas, ajedrez, Scrabble y Go. Uno por uno, las computadoras han ido conquistando algunos de los juegos más populares del mundo.
A esa lista ahora se le suma el póker, aunque los jugadores a menudo recurren al bluff o engaño para vencer a sus oponentes.
El 12 de julio, por primera vez en la historia, un robot jugador de póquer llamado Pluribus venció simultáneamente a varios competidores humanos en la modalidad más popular de este juego de cartas: Texas Hold'em sin límite.
Estas pueden ser malas noticias para los jugadores de póker en línea, pero ¿podría ayudar a la humanidad en otros aspectos más útiles?

¿Por qué para las computadoras es difícil jugar póker?

Durante décadas, el póker se había considerado "demasiado complejo" para que las computadoras lo aprendieran de manera automática.
A diferencia del ajedrez, donde se ven todas las piezas y movimientos, el póker es un juego de "información imperfecta" debido a que se juega con cartas ocultas y los jugadores tienen solo una noción parcial del estado de la partida.
Noam BrownDerechos de autor de la imagenCMU
Image captionNoam Brown (derecha) es uno de los creadores de Pluribus.
El póker también es famoso por el bluffing: un intento de engañar a los otros jugadores para que crean que las cartas que uno tiene son mejores o peores de lo que realmente son.
Estos factores complican la forma en que la inteligencia artificial (IA) busca una estrategia para ganar el juego.

Rompiendo barreras

Pero el dominio que los humanos tenían sobre el póker ha terminado.
Pluribus, creado por Noam Brown, un científico del departamento de inteligencia artificial de Facebook; y Tuomas Sandholm, profesor de ciencias de la computación en la Universidad Carnegie Mellon de Pensilvania, aparentemente ha superado esas dos ventajas que los humanos tenían sobre la máquina.
En una serie de miles de manos contra 13 jugadores profesionales que han ganado más de US$1 millón jugando al póker, el robot salió airoso de las partidas.
Uno de los oponentes de Pluribus fue Darren Elias, ganador de un récord de cuatro títulos del Tour Mundial de Póker.
Gregg MersonDerechos de autor de la imagenGETTY
Image captionGregg Merson, campeón de la Serie Mundial de Póker en 2012, fue uno de los derrotados por Pluribus.

Usos en el mundo real

Pero ¿por qué los científicos trabajan en máquinas que vencen a los humanos?
En pocas palabras: porque creen que una partida de ajedrez o una mano de póker pueden ayudar a la inteligencia artificial a realizar tareas mucho más complejas.
"Estamos usando el póker como punto de referencia para un problema más fundamental: ¿cómo desarrollamos una inteligencia artificial que pueda hacer frente a la información oculta?", le dice Brown a la BBC.
"Para que la IA se implemente en el mundo real e interactúe con humanos y otras IA, debe ser capaz de comprender que otros participantes pueden ver el mundo de manera diferente a ella y que pueden tener acceso a otra información".
"El póker es un gran simulador para ese tipo de desafío", agregó.
tablero de GoDerechos de autor de la imagenGETTY
Image captionLas habilidades de la computadora AlphaGo para jugar Go podrían ser útiles en la química y la ingeniería.
Cuando AlphaGo, desarrollado por la empresa DeepMind, propiedad de Google, se convirtió en la primera computadora en vencer a un jugador profesional de Go en 2015, sus creadores vieron su posible utilidad en tareas vinculadas con la química y la ingeniería, por ejemplo, a la hora de buscar nuevos materiales.
Brown y Sandholm, por su parte, creen que la resolución de problemas de Pluribus podría tener aplicaciones futuras en tareas tan diversas como negociaciones financieras y navegación para vehículos autónomos.
Todas estas situaciones involucran a múltiples partes e información faltante.
"La mayoría de los entornos del mundo real son juegos de información imperfecta", dijo Sandholm.

Cómo aprenden los 'bots'

En 2017, Libratus, otro programa desarrollado por Brown y Sandholm, derrotó uno a uno a sus oponentes humanos en juegos de póker en un casino de Pittsburgh, EE.UU.
Tuomas SandholmDerechos de autor de la imagenCMU
Image captionUna compañía de IA dirigida por Sandholm (en el centro) obtuvo un contrato con el Ejército de EE.UU.
Los expertos afirman que la estrategia de juego se puede aplicar en simulaciones militares. La revista Wired informó que Strategy Robot, una compañía especializada en IA fundada por Sandholm, recibió un contrato de US$10 millones con el Ejército de EE.UU. en agosto de 2018.
"Los bots potencialmente tienen mucho que enseñarnos sobre nuestra propia toma de decisiones", explica el matemático Adam Kucharski, autor del libro "La apuesta perfecta: cómo la ciencia y las matemáticas le están quitando la suerte al juego".
"Los mejores bots de póker aprenden a través de un proceso de minimización de arrepentimiento contrafactual, es decir, mirar hacia atrás después de una decisión y preguntarse '¿y si hubiera hecho algo distinto?'".
"Al perder ante los bots, creo que los jugadores humanos pueden aprender mucho más sobre su propio enfoque de los juegos", agrega Kucharski.

'Bluff' electrónico

Entonces ¿cómo "blofea" o engaña Pluribus a sus oponentes?
Brown y Sandholm hicieron que el bot "aprendiera" el póker jugando billones de manos contra sí mismo y revisando su estrategia.
PókerDerechos de autor de la imagenGETTY
Image captionSegún sus creadores, máquinas como Pluribus demuestran que el engaño no es una habilidad exclusiva de los humanos.
Las decisiones que llevaron a alcanzar victorias tenían más probabilidades de ser utilizadas más adelante.
Una de estas decisiones fue hacer una apuesta con una mano débil para inducir al oponente a retirarse, que es exactamente de lo que se trata el bluff.
"La gente tiene esta concepción de que "blofear" es un rasgo muy 'humano' que las máquinas no lo pueden hacer", dice Brown.
"Pero, de hecho, vemos que una máquina puede hacer bluff,y puede hacerlo mejor que cualquier humano".
"Pluribus no ve el bluffing como algo engañoso o deshonesto, simplemente lo ve como la acción que, en algunos casos, le dará más dinero cuando tiene una mala mano", agrega el científico.
Pluribus también causó sorpresa por lo "barato" que resulta. Necesitaba solo US$150 en recursos de computación en la nube para funcionar, según los investigadores de Carnegie Mellon.


En comparación, Deepmind dependía de supercomputadoras que constaban de más de 5.000 procesadores especializados, a un costo estimado de millones de dólares.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.