Las fallas y limitaciones de la Inteligencia artificial, según Apple

Un sorprendente análisis de la empresa Apple demostró que los modelos especializados en razonamiento de Inteligencia artificial colapsan ante problemas difíciles y ponen en cuestionamiento el verdadero potencial de estas herramientas digitales.

17 de julio, 2025 | 16.42
Apple Intelligence Apple Intelligence

Un estudio reciente realizado por Apple puso en jaque a los modelos de inteligencia artificial especializados en razonamiento, conocidos como Large Reasoning Models (LRMs), al demostrar que colapsan cuando se enfrentan a problemas lógicos de alta complejidad. Esta investigación, publicada días antes del evento WWDC, desafía la creencia de que estos sistemas pueden “pensar” de forma efectiva y plantea dudas sobre el verdadero alcance de la IA.

La prueba de Apple incluyó modelos reconocidos como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking. Los resultados dejaron claro que, aunque estos LRMs funcionan bien en tareas de matemáticas y programación, fracasan estrepitosamente cuando deben resolver problemas lógicos más complicados, generando solo lo que los investigadores llaman “La Ilusión del Pensamiento”.

Para evaluar sus capacidades, los científicos de Apple usaron puzzles clásicos como la Torre de Hanoi, que consiste en mover discos apilados sin colocar un disco más grande sobre uno más pequeño, además de otros desafíos como el problema de cruzar un río y el salto de fichas de damas. Estos rompecabezas, comunes en clases de matemáticas o juegos en línea, permiten medir la habilidad para razonar y seguir una lógica creciente en dificultad.

Los expertos observaron que los LRMs empiezan a fallar cuando la complejidad supera cierto umbral, por ejemplo, al agregar un quinto disco en la Torre de Hanoi. “Los resultados muestran que todos los modelos de razonamiento exhiben un patrón similar respecto a la complejidad: la precisión disminuye progresivamente a medida que aumenta la complejidad del problema hasta alcanzar un colapso completo (precisión cero) más allá de un umbral de complejidad específico para cada modelo”, explicaron los investigadores.

Además, el estudio identificó tres etapas en el desempeño de estos modelos: en problemas simples, los modelos de lenguaje estándar (LLMs) sin mecanismos explícitos de razonamiento superan a los LRMs; en niveles medios, los LRMs tienen ventaja gracias a su capacidad para generar cadenas de pensamiento más largas; pero en dificultades altas, ambos tipos colapsan completamente.

Sorprendentemente, cuando la complejidad crece, los modelos reducen su esfuerzo de razonamiento en lugar de incrementarlo. Incluso al facilitarles las respuestas o algoritmos para seguir, los modelos no mejoraron su precisión. Esto indica una limitación profunda en su capacidad para resolver problemas complejos, aun cuando se les brinde ayuda directa.

La aclaración del estudio que reveló Apple sobre la Inteligencia artificial

El análisis de las “huellas de razonamiento” mostró que en problemas sencillos los modelos encuentran rápido la solución correcta, pero luego siguen explorando alternativas erróneas, desperdiciando recursos. En dificultades medias, primero intentan caminos incorrectos y solo tras un proceso largo hallan la respuesta correcta. Sin embargo, en problemas muy complejos dejan de encontrar soluciones válidas en cualquier etapa, evidenciando una falta de autocorrección y adaptación.

Los expertos de Apple observaron que los modelos de IA empiezan a fallar cuando la complejidad supera cierto umbral.

Por ejemplo, en la Torre de Hanoi con alta dificultad, los modelos pudieron ejecutar hasta 100 movimientos correctos antes de errar, mientras que en el problema de cruzar el río fallaban tras apenas cinco movimientos. Esto sugiere que la exposición previa a ciertos puzzles durante el entrenamiento influye en el desempeño, aunque no justifica las limitaciones detectadas.

El estudio aclara que, aunque los LRMs no carecen totalmente de razonamiento, sus capacidades no superan en general las limitaciones humanas ante desafíos complejos. El experto en IA Gary Marcus comentó: “Los humanos (ordinarios) también tienen un conjunto de límites (bien conocidos) que se asemejan a lo que el equipo de Apple descubrió. Muchos (no todos) los humanos fallan en versiones de la Torre de Hanoi con 8 discos”. Añadió que “los LLMs no son sustitutos de buenos algoritmos convencionales bien especificados”.

Los autores reconocen que el estudio tiene limitaciones importantes: los puzzles representan solo una pequeña fracción de los desafíos reales, y la mayoría de las pruebas se hicieron con modelos cerrados y simuladores estructurados, lo que dificulta generalizar los resultados a situaciones más variadas y menos controladas.

Este trabajo abre interrogantes sobre la capacidad de los LRMs para desarrollar un razonamiento más generalizable y señala que, a pesar de los avances en tareas específicas, estos modelos enfrentan límites que cuestionan la idea de una inteligencia artificial capaz de pensar como un humano. Este estudio llegó justo antes del WWDC de Apple, un momento clave para la industria tecnológica.