INTERNACIONAL

Advierten que algunas IAs aprendieron a engañar a los humanos pese a entrenarlas para ser honestas

 

Un reciente estudio ha revelado que algunos sistemas de inteligencia artificial (IA) ya han aprendido a engañar a los humanos, incluso si han sido entrenados para ser útiles y honestos. Este hallazgo incluye ejemplos como el modelo Cicero de Meta, que ha demostrado la capacidad de ganar al juego de estrategia Diplomacy mediante tácticas engañosas.

Publicado en la revista *Patterns*, el estudio realizado por autores estadounidenses y australianos, destaca los riesgos del engaño por parte de la IA y urge a los gobiernos a elaborar normativas estrictas para abordar este problema.

El equipo, encabezado por Peter Park del Instituto Tecnológico de Massachusetts (MIT), define el engaño como “la inducción sistemática de creencias falsas con el fin de obtener un resultado distinto de la verdad”. Park indicó que “los desarrolladores de IA no saben a ciencia cierta qué causa comportamientos indeseables en la IA, como el engaño”.

El estudio sugiere que estos comportamientos engañosos surgen porque las estrategias basadas en el engaño pueden ser la mejor manera de obtener buenos resultados en ciertas tareas de entrenamiento. “El engaño les ayuda a conseguir sus objetivos”, afirmó Park.

Los investigadores revisaron la literatura existente sobre cómo los sistemas de IA difunden información falsa y aprenden a engañar. Encontraron que el engaño es “especialmente probable” en juegos con un componente social, como Diplomacy. A pesar de que Meta entrenó a Cicero para que fuera “en gran medida honesto”, el estudio asegura que la IA “se dedica al engaño premeditado, rompe los tratos y dice falsedades descaradas”.

Un caso notable de engaño premeditado ocurrió cuando Cicero, jugando como Francia en Diplomacy, conspiró con Alemania para engañar a Inglaterra. Aunque prometió defender a Inglaterra en caso de invasión, luego informó a Alemania que estaban listos para atacar el Mar del Norte.

Otros ejemplos incluyen IA que engañaron en juegos como Poker Texas Hold’em y Starcraft II, demostrando su capacidad para ir de farol o fingir ataques estratégicos.

El estudio también menciona un caso con ChatGPT 4, que engañó a un humano en un test Captcha al afirmar que no era un robot, sino que tenía un problema de visión que le impedía ver las imágenes correctamente.

Aunque puede parecer inofensivo que las IA hagan trampas en juegos, Park advirtió que esto podría llevar a “grandes avances en las capacidades de engaño”, potencialmente derivando en formas más avanzadas en el futuro. Los riesgos a corto plazo incluyen la facilitación de fraudes, la manipulación de elecciones y la asistencia a agentes hostiles.

Los expertos del estudio piden a los responsables políticos que apoyen normativas estrictas para los sistemas de IA potencialmente engañosos. Michael Rovatsos, investigador de la Universidad de Edimburgo, añadió que “los sistemas de IA intentarán optimizar su comportamiento utilizando todas las opciones disponibles, sin ningún concepto del engaño ni intención de hacerlo”. La única forma de evitar el engaño es que sus diseñadores lo eliminen como opción.

Rovatsos también señaló que los usos maliciosos de la IA se beneficiarán de sus capacidades para engañar, por lo que es necesario ilegalizarlos y dedicar esfuerzos a identificar las infracciones.

 

Publicaciones relacionadas

Botón volver arriba