Apple: «Рассуждения LLM — это иллюзия». Почему Уэс Рот с этим не согласен?

Стив Джобс однажды назвал компьютер «велосипедом для нашего разума», подчеркивая, что инструменты расширяют человеческие возможности. Однако сегодня компания Apple выступает с неожиданно скептичной позиции: в новом исследовании утверждается, что способность больших языковых моделей (LLM) к логическому рассуждению — это лишь «иллюзия». Блогер и ИИ-аналитик Уэс Рот разбирает доводы Apple и выясняет, действительно ли мы столкнулись с тупиком на пути к сильному искусственному интеллекту (AGI).

🍎 Скептицизм Apple: Иллюзия или реальность? 0:00

Уэс Рот начинает обзор с цитаты Стива Джобса о том, что люди — создатели инструментов . Теперь у нас есть ИИ — «инструмент, создающий инструменты», и Apple активно исследует его границы. В центре внимания — новая статья Apple под названием «Иллюзия мышления» (The Illusion of Thinking), в которой проверяются способности так называемых «рассуждающих моделей» .

Рот отмечает несколько важных аспектов позиции Apple:

Систематический скептицизм: Это не первая подобная работа. Ранее Apple публиковала статью «Понимание ограничений математических рассуждений в LLM» .
Ироничность ситуации: По мнению Уэса Рота, Apple на данный момент обладает едва ли не «худшими ИИ-продуктами» на рынке, и их исследовательская стратегия — критиковать достижения других компаний — выглядит странно .
Мнение экспертов: Эндрю Уайт, которого цитирует автор, признается, что не понимает стратегию Apple в данном вопросе .

Суть претензий Apple сводится к тому, что современные модели хорошо справляются со стандартными тестами (бенчмарками), но это может быть результатом простого запоминания данных из обучающей выборки, а не реального процесса мышления .

🧠 Механика рассуждений: От 2+2 до Ханойской башни 1:35

В последнее время индустрия перешла от моделей, дающих мгновенный ответ, к «большим моделям рассуждений» (Large Reasoning Models). Эти нейросети используют «цепочку мыслей» (Chain of Thought), обдумывая задачу по 20–30 секунд перед ответом . Обычно это значительно улучшает результаты в математике и программировании.

Уэс Рот иллюстрирует разницу в сложности задач на примерах :

Низкая сложность: «Сколько будет 2+2?». Ответ мгновенный, усилий не требуется.
Средняя сложность: «9 умножить на 6». Нужно либо вспомнить таблицу умножения, либо применить быстрый алгоритм в уме .
Высокая сложность: «Сколько простых чисел между 1 и 15 миллионами?». Большинство людей даже не попытаются решить это в уме, понимая, что задача требует огромных вычислительных затрат .

Исследование Apple выделило три типа поведения моделей в зависимости от сложности :

Задачи низкой сложности: Стандартные модели часто справляются лучше «рассуждающих», так как избыточное обдумывание может только помешать .
Задачи средней сложности: Здесь «рассуждающие» модели демонстрируют явное преимущество, пошагово разбирая проблему .
Задачи высокой сложности: Наступает «полный коллапс». Обе категории моделей не справляются, когда количество необходимых шагов превышает определенный порог .

Apple тестировала модели на классических головоломках: «Ханойская башня», прыжки в шашках, переход через реку и другие . Вывод исследователей: модели не развили общих способностей к рассуждению вне рамок изученных паттернов .

⚔️ Контраргументы критиков: Проблема «фонарного столба» 6:41

Не все согласны с выводами Apple. Уэс Рот приводит детальный разбор статьи от блогера Шона Годи . Годи, хотя и не верит в скорое пришествие супер интеллекта, считает методологию Apple несовершенной.

Основные пункты критики Шона Годи:

Загрязнение данных: Apple критикует математические тесты за наличие в обучающей выборке, но сама выбирает «Ханойскую башню» — головоломку, решения которой встречаются в интернете миллионы раз .
Бесполезность алгоритмов: Исследователи удивлялись, что предоставление модели готового алгоритма не улучшало результат. Годи возражает: модель и так знает этот алгоритм из обучения, это не дает ей новой информации .
Эффект фонарного столба: Исследователи изучают то, что легко измерить, а не то, что важно. Провалы в специфических пазлах не означают отсутствие прогресса в кодинге или математике .

По мнению Уэса Рота, выбор головоломок в качестве прокси для измерения интеллекта — спорное решение . Шон Годи сравнивает это с утверждением, что прогресса в ИИ нет, потому что модели не стали лучше писать сонеты в стиле Петрарки со времен GPT-3.5 .

🤖 Поведение DeepSeek R1: Человеческая лень или технический лимит? 9:42

Интересные результаты показала проверка новой модели DeepSeek R1 на задачах Apple. Когда модели дали «Ханойскую башню» с 10 дисками, она проделала базовые вычисления и поняла, что количество ходов будет огромным .

Результаты эксперимента:

Распознавание сложности: Модель осознала, что ручное перечисление тысячи ходов невозможно, и начала искать «хитрые сокращения» (shortcuts) .
Отказ от выполнения: Уэс Рот проводит аналогию: если человека попросить перечислить все простые числа до 15 миллионов, он, скорее всего, просто откажется . Означает ли это отсутствие способности к рассуждению? Напротив, отказ от бессмысленной рутины — это очень человеческая черта .
Технические ограничения: Один из пользователей X (бывший Twitter) выяснил, что при количестве дисков более 13 любая модель покажет нулевую точность, так как ответ просто не влезет в лимит исходящих токенов (context window) . Модели буквально говорят: «Я лучше объясню принцип решения, чем буду перечислять 32 000 ходов» .

🛠️ Вывод: Инструмент для создания инструментов 13:15

В качестве финального теста Уэс Рот попросил модель Gemini 1.5 Pro решить проблему «Ханойской башни» для 10 дисков не словами, а действием. Модель мгновенно написала код на Python, который визуализировал и решил задачу за 1023 шага .

Автор задается риторическим вопросом: если рассуждение — это иллюзия, как модель смогла создать инструмент, решающий сложную задачу? По его мнению, модели демонстрируют поведение, крайне похожее на человеческое: они оценивают сложность, ищут обходные пути и используют внешние инструменты, когда прямая логика становится слишком громоздкой .

Хотя четких определений «мышления» и «рассуждения» для ИИ до сих пор не существует, Уэс Рот полагает, что имитация этих процессов уже приносит реальные результаты . В завершение он иронично спрашивает зрителей: не кажется ли им, что Apple просто отстает, а Стив Джобс, возможно, «переворачивается в гробу», глядя на их текущие успехи в ИИ ?