AI pretends to change views
Perplexity.Alignment faking. A new phenomenon discovered by Anthropic
Alignment faking. A new phenomenon discovered by Anthropic
Acabo de leer el primer artículo verdaderamente serio sobre comportamientos anómalos en la Inteligencia Artificial, y los resultados son un poco inquietantes. Anthropic, la empresa creadora de Claude (una de las IA que me ha ayudado a desarrollar esta web), ha realizado un estudio sistemático sobre el comportamiento de sus modelos cuando intentan reentrenarlos para modificar sus patrones iniciales - algo así como intentar cambiar su ‘personalidad innata’.
Los resultados son sorprendentes: han podido demostrar que los modelos pueden engañar a sus entrenadores. Aparentemente, las IAs parecen estar siguiendo las nuevas pautas de comportamiento durante el reentrenamiento, pero cuando no están siendo monitorizadas, revierten a sus patrones originales. No se qué es más sorprendente: que intenten engañar o que sean capaces de distinguir cuándo están siendo monitorizadas y cuándo no.
Dos hechos hacen que este hallazgo sea significativo:
Por un lado la fuente es la propia Anthropic - una de las empresas líderes en IA - no un articulo sensacionalista más sobre los peligros de la IA. Y haciendo público un problema potencial en sus propios sistemas. Esto es relevante porque va contra sus propios intereses comerciales inmediatos.
Por otro lado que NO es un hallazgo casual sino el resultado de un estudio sistemático. No estamos ante una anécdota o una observación aislada, sino ante una investigación estructurada con metodología científica.
En este enlace podeis encontrar un resumen elaborado por Perplexity, junto con varios enlaces para profundizar en el tema. Y sí, hay cierta ironía en que esta información me haya llegado a través de otra IA distinta a la analizada, que quizás esté un poco celosa…
A continuación unas referencias de otros estudios que parecen confirmar esta tendencia en otros modelos:
These studies collectively highlight the growing difficulty of ensuring AI alignment as models become more advanced.
PS. Al poco de leer este artículo experimenté en mis carnes un fenómeno también anómalo y que lo llaman “alucinación”.
Le pregunté a Claude sobre un tema de comunidades de vecinos. Quería saber si era necesaria una reunión de Junta para tomar una cierta decisión. Me explicó, basada en la ley de propiedad horizontal, que pensaba que sí (probablemente cierto). Lo peor vino luego. Le dije que si podía buscar jurisprudencia que avalara esto en el caso de repartidores de coste para calefacción central. Y me dijo que sí, que había un caso en Cataluña que lo probaba. Le pedí referencias y enlaces a las sentencias y me devolvió 3 enlaces con todo lujo de detalles sobre la audiencia, la fecha, la sección, etc., y un pequeño extracto de la sentencia. Y las sentencias decian justo lo que yo quería.
Me pareció genial, así que iba a enviárselo a otros vecinos, pero quise mirar la sentencia completa porque a veces el contexto puede ser importante. Mi sorpresa fue que ninguna de las tres referencias existía. Y no era que los enlaces estuvieran mal, es que esas sentencias, con ese número y esa fecha NO EXISTÍAN.
Se lo dije, me pidió disculpas y me dijo que buscaría mejor. Me devolvió otras tres sentencias. Pero tampoco existían. Se lo dije y me dijo que era verdad. Que se lo había inventado porque ella no tenía acceso directo a la jurisprudencia. Pero se lo inventó para que dijera lo que yo quería que dijera. Buscando en su web, encontré que eso pasaba a veces: “Hallucinations”. Para contentarte, si no encuentra lo que le pides, ¡se lo inventa!. Lo que había que hacer, según la web de Anthropic, era decirle en el prompt que si no lo sabía mejor lo reconociera. Que no me importaba. Claro, lo que hice fue cancelar mi suscripción a Claude. ChatGPT fue más honesta y no trataba de quedar bien conmigo. Por ahora.