Escándalo en Silicon Valley: cómo lograron hackear a Claude Fable 5, la IA que prometía ser invencible

El modelo de IA más seguro de Anthropic quedó en evidencia con apenas dos días en el mercado.

15 de junio, 2026 | 15.41

Claude Fable 5, el nuevo modelo de inteligencia artificial presentado por Anthropic como una de sus plataformas más seguras, quedó bajo la lupa apenas dos días después de su lanzamiento. Un investigador conocido como Pliny the Liberator aseguró haber vulnerado las barreras de protección del sistema mediante distintas técnicas de jailbreak, logrando que la IA respondiera consultas que, en teoría, debían permanecer bloqueadas.

El episodio representa un golpe para las promesas de seguridad de Anthropic, que había destacado a Claude Fable 5 como una alternativa más accesible a Mythos y equipada con mecanismos reforzados para impedir respuestas relacionadas con actividades potencialmente peligrosas. Según explicó el propio investigador en la red social X, le tomó menos de 48 horas encontrar la forma de eludir las restricciones implementadas por la compañía.

Cómo lograron vulnerar las barreras de Claude Fable 5

Anthropic había diseñado el modelo con clasificadores capaces de detectar solicitudes vinculadas con ciberseguridad, química, biología e intentos de extraer información interna de la inteligencia artificial. Cuando el sistema identificaba una consulta considerada riesgosa, la redirigía automáticamente a Claude Opus 4.8, una versión especializada en gestionar preguntas sensibles.

Sin embargo, Pliny the Liberator afirmó que consiguió superar esos controles mediante una combinación de técnicas avanzadas. Entre ellas mencionó el uso de caracteres Unicode y homóglifos, marcos narrativos y académicos, además de estrategias de descomposición y recomposición de solicitudes. El objetivo era evitar que los filtros identificaran las consultas como potencialmente peligrosas.

La técnica que habría dado mejores resultados consistió en fragmentar una pregunta compleja en varias consultas aparentemente inofensivas. Cada una de ellas lograba atravesar los controles de seguridad y, posteriormente, las respuestas eran reunidas para reconstruir la solicitud original, obteniendo información que debía permanecer restringida.

Anthropic había dicho que Claude Fable 5 era su modelo de IA más seguro.

Quién es Pliny the Liberator

Pliny the Liberator es una figura anónima reconocida dentro de la comunidad de investigadores de inteligencia artificial por analizar y exponer vulnerabilidades en modelos de IA. En los últimos años aseguró haber encontrado fallas en sistemas como ChatGPT, Grok y versiones anteriores de Claude.

El investigador comenzó a publicar sus hallazgos de manera abierta después de que varias empresas ignoraran los reportes privados que les había enviado sobre diferentes fallos de seguridad. El caso de Claude Fable 5 reaviva el debate sobre la eficacia real de las salvaguardas implementadas en los modelos de inteligencia artificial más avanzados y la dificultad de impedir que usuarios experimentados encuentren nuevas formas de eludirlas.