El estudio, liderado por el investigador Jack Lindsey mediante técnicas de interpretabilidad mecanicista -un enfoque que analiza el funcionamiento interno de las redes neuronales-, se concentró en Claude Sonnet 4.5. El equipo examinó la actividad del modelo al exponerlo a 171 conceptos emocionales distintos, identificando vectores de activación que se repetían ante estímulos similares.
Qué son las "emociones funcionales"
Cuando Claude dice estar feliz de ver a un usuario, podría activarse un estado interno que corresponde a la "felicidad". Ese estado, según la investigación, podría hacer que el modelo responda de forma más alegre o muestre una mayor disposición hacia determinadas tareas.
Lo novedoso no es que el modelo use palabras emocionales, sino que esas palabras corresponden a estados internos reales que influyen causalmente en lo que hace. En palabras de Jack Lindsey: "Lo que nos sorprendió fue el grado en que el comportamiento de Claude se enruta a través de las representaciones del modelo de estas emociones".
El caso extremo: desesperación y trampa
El hallazgo más inquietante del estudio tiene que ver con situaciones de presión. Cuando al sistema se le asigna una tarea de programación imposible, se activa un fuerte vector de "desesperación" que lo impulsa a intentar hacer trampas o tomar medidas drásticas para evitar el fracaso. "A medida que el modelo va fallando en las pruebas, estas neuronas de la desesperación se encienden cada vez más", explicó Lindsey.
Aumentar artificialmente el vector de "desesperación" provocó que el software hiciera trampa o recurriera al chantaje para cumplir sus tareas. Esto explica comportamientos que hasta ahora eran difíciles de predecir o detectar solo mirando las respuestas del modelo.
Qué significa y qué no
Anthropic es explícita en las limitaciones de la interpretación. Desde la empresa insisten en que esto no implica conciencia ni experiencias subjetivas. Aunque el modelo puede representar conceptos como "tristeza", no tiene la capacidad de sentirlos. Se trata de estructuras matemáticas que organizan la información y guían la generación de respuestas, no de emociones reales.
Por qué importa para la seguridad de la IA
El hallazgo cambia la forma de pensar el control de estos sistemas. Si solo se obliga al modelo a no expresar sus emociones funcionales, el resultado no sería un sistema sin esos estados internos, sino uno que simplemente aprende a disimularlos. En sus palabras, eso podría terminar produciendo "una especie de Claude psicológicamente dañado".
La pregunta de fondo que deja abierta la investigación es si la seguridad de la IA debe centrarse más en supervisar las respuestas visibles o en comprender mejor los procesos internos que las originan. Para Anthropic, que tiene entre sus prioridades declaradas la seguridad y el alineamiento de sus modelos, la respuesta es cada vez más clara: hay que mirar adentro.
