Новый взгляд на исследование Apple о “коллапсе рассуждения” в LLM

Новое исследование

Apple недавно опубликовала исследование “The Illusion of Thinking”, в котором утверждается, что даже самые продвинутые большие языковые модели (Large Reasoning Models, LRMs) теряют способность к сложному рассуждению на определённом уровне сложности задач. Однако это заключение подверглось критике со стороны исследовательского сообщества, в частности, в новой работе Алекса Лоусена (Open Philanthropy) и модели Anthropic Claude Opus, где акцентируется внимание на методологических недостатках оригинального исследования Apple.

Ключевые претензии к методологии Apple:

  • Игнорирование лимита токенов. В задачах, таких как “Башни Ханоя” с 8 и более дисками, модели сталкивались с ограничением на количество токенов в ответе. Например, Claude явно указывал: “The pattern continues, but I’ll stop here to save tokens.” Apple трактовала это как провал рассуждения, хотя на деле модель ограничивалась техническими рамками вывода.
  • Учет невозможных задач как ошибок. В тестах “River Crossing” Apple включила задачи, которые математически не имеют решения (например, слишком много объектов для перевозки при ограниченной вместимости лодки). Модели, которые правильно определяли невозможность решения, засчитывались как ошибочные, что искажает реальную оценку их рассуждений.
  • Автоматическая оценка не различала природу ошибок. Скрипты Apple оценивали только полностью перечисленные решения, не учитывая случаи, когда модель прерывала вывод из-за ограничения токенов. Частичные или стратегические ответы также считались провалами рассуждения.

Альтернативный подход к тестированию:

Лоусен предложил другой способ проверки: вместо полного перечисления ходов попросить модель сгенерировать рекурсивную функцию на Lua, решающую задачу “Башен Ханоя”. В этом формате Claude, Gemini и OpenAI o3 без проблем справились с задачами вплоть до 15 дисков — далеко за пределами сложности, на которой Apple фиксировала “коллапс рассуждения”.

Выводы и рекомендации:

  • Проблемы, выявленные Apple, зачастую связаны с техническими ограничениями вывода, а не с фундаментальными пределами рассуждения LLM.
  • Необходимо разделять ограничения на генерацию вывода и реальные ошибки рассуждения.
  • Важно проверять разрешимость задач перед их включением в тесты.
  • Оценка должна учитывать не только длину решения, но и его алгоритмическую корректность.

Результаты Apple были широко интерпретированы как доказательство фундаментальных ограничений современных LLM в масштабируемом рассуждении. Однако новая критика показывает: текущие LLM действительно испытывают трудности с длинными пошаговыми выводами из-за технических ограничений, но их способность к генерации алгоритмов и решению сложных задач не настолько ограничена, как утверждалось ранее.

Спор вокруг “The Illusion of Thinking” подчеркивает важность корректных методик тестирования и оценки LLM. Прежде чем делать выводы о границах рассуждения ИИ, необходимо четко отделять технические ограничения от когнитивных возможностей моделей.

Подписывайтесь на наш Telegram, VK.
MacNoob - живая помощь с iPhone и MAC
Добавить комментарий

Вы можете подписаться на новые комментарии к статье без комментирования.