# Apple: «Рассуждения LLM — это иллюзия». Почему Уэс Рот с этим не согласен?

Источник: https://www.youtube.com/watch?v=LVJem2iLKZ8
Канал: Wes Roth
Опубликовано: 09.06.2025

---

Стив Джобс однажды назвал компьютер «велосипедом для нашего разума», подчеркивая, что инструменты расширяют человеческие возможности. Однако сегодня компания Apple выступает с неожиданно скептичной позиции: в новом исследовании утверждается, что способность больших языковых моделей (LLM) к логическому рассуждению — это лишь «иллюзия». Блогер и ИИ-аналитик Уэс Рот разбирает доводы Apple и выясняет, действительно ли мы столкнулись с тупиком на пути к сильному искусственному интеллекту (AGI).

## 🍎 Скептицизм Apple: Иллюзия или реальность?
[[JUMP:00:00]]

Уэс Рот начинает обзор с цитаты Стива Джобса о том, что люди — создатели инструментов [0:00]. Теперь у нас есть ИИ — «инструмент, создающий инструменты», и Apple активно исследует его границы. В центре внимания — новая статья Apple под названием «Иллюзия мышления» (The Illusion of Thinking), в которой проверяются способности так называемых «рассуждающих моделей» [0:15].

Рот отмечает несколько важных аспектов позиции Apple:

*   **Систематический скептицизм:** Это не первая подобная работа. Ранее Apple публиковала статью «Понимание ограничений математических рассуждений в LLM» [0:41].
*   **Ироничность ситуации:** По мнению Уэса Рота, Apple на данный момент обладает едва ли не «худшими ИИ-продуктами» на рынке, и их исследовательская стратегия — критиковать достижения других компаний — выглядит странно [1:07].
*   **Мнение экспертов:** Эндрю Уайт, которого цитирует автор, признается, что не понимает стратегию Apple в данном вопросе [1:15].

Суть претензий Apple сводится к тому, что современные модели хорошо справляются со стандартными тестами (бенчмарками), но это может быть результатом простого запоминания данных из обучающей выборки, а не реального процесса мышления [2:02].

## 🧠 Механика рассуждений: От 2+2 до Ханойской башни
[[JUMP:01:35]]

В последнее время индустрия перешла от моделей, дающих мгновенный ответ, к «большим моделям рассуждений» (Large Reasoning Models). Эти нейросети используют «цепочку мыслей» (Chain of Thought), обдумывая задачу по 20–30 секунд перед ответом [1:35]. Обычно это значительно улучшает результаты в математике и программировании.

Уэс Рот иллюстрирует разницу в сложности задач на примерах [2:52]:

1.  **Низкая сложность:** «Сколько будет 2+2?». Ответ мгновенный, усилий не требуется.
2.  **Средняя сложность:** «9 умножить на 6». Нужно либо вспомнить таблицу умножения, либо применить быстрый алгоритм в уме [3:05].
3.  **Высокая сложность:** «Сколько простых чисел между 1 и 15 миллионами?». Большинство людей даже не попытаются решить это в уме, понимая, что задача требует огромных вычислительных затрат [3:30].

Исследование Apple выделило три типа поведения моделей в зависимости от сложности [4:10]:

*   **Задачи низкой сложности:** Стандартные модели часто справляются лучше «рассуждающих», так как избыточное обдумывание может только помешать [4:22].
*   **Задачи средней сложности:** Здесь «рассуждающие» модели демонстрируют явное преимущество, пошагово разбирая проблему [4:34].
*   **Задачи высокой сложности:** Наступает «полный коллапс». Обе категории моделей не справляются, когда количество необходимых шагов превышает определенный порог [4:48].

Apple тестировала модели на классических головоломках: «Ханойская башня», прыжки в шашках, переход через реку и другие [5:00]. Вывод исследователей: модели не развили общих способностей к рассуждению вне рамок изученных паттернов [6:17].

## ⚔️ Контраргументы критиков: Проблема «фонарного столба»
[[JUMP:06:41]]

Не все согласны с выводами Apple. Уэс Рот приводит детальный разбор статьи от блогера Шона Годи [6:50]. Годи, хотя и не верит в скорое пришествие супер интеллекта, считает методологию Apple несовершенной.

Основные пункты критики Шона Годи:

*   **Загрязнение данных:** Apple критикует математические тесты за наличие в обучающей выборке, но сама выбирает «Ханойскую башню» — головоломку, решения которой встречаются в интернете миллионы раз [7:34].
*   **Бесполезность алгоритмов:** Исследователи удивлялись, что предоставление модели готового алгоритма не улучшало результат. Годи возражает: модель и так знает этот алгоритм из обучения, это не дает ей новой информации [8:26].
*   **Эффект фонарного столба:** Исследователи изучают то, что легко измерить, а не то, что важно. Провалы в специфических пазлах не означают отсутствие прогресса в кодинге или математике [9:17].

По мнению Уэса Рота, выбор головоломок в качестве прокси для измерения интеллекта — спорное решение [8:51]. Шон Годи сравнивает это с утверждением, что прогресса в ИИ нет, потому что модели не стали лучше писать сонеты в стиле Петрарки со времен GPT-3.5 [9:12].

## 🤖 Поведение DeepSeek R1: Человеческая лень или технический лимит?
[[JUMP:09:42]]

Интересные результаты показала проверка новой модели DeepSeek R1 на задачах Apple. Когда модели дали «Ханойскую башню» с 10 дисками, она проделала базовые вычисления и поняла, что количество ходов будет огромным [9:56].

Результаты эксперимента:

*   **Распознавание сложности:** Модель осознала, что ручное перечисление тысячи ходов невозможно, и начала искать «хитрые сокращения» (shortcuts) [10:35].
*   **Отказ от выполнения:** Уэс Рот проводит аналогию: если человека попросить перечислить все простые числа до 15 миллионов, он, скорее всего, просто откажется [12:08]. Означает ли это отсутствие способности к рассуждению? Напротив, отказ от бессмысленной рутины — это очень человеческая черта [12:48].
*   **Технические ограничения:** Один из пользователей X (бывший Twitter) выяснил, что при количестве дисков более 13 любая модель покажет нулевую точность, так как ответ просто не влезет в лимит исходящих токенов (context window) [11:29]. Модели буквально говорят: «Я лучше объясню принцип решения, чем буду перечислять 32 000 ходов» [11:57].

## 🛠️ Вывод: Инструмент для создания инструментов
[[JUMP:13:15]]

В качестве финального теста Уэс Рот попросил модель Gemini 1.5 Pro решить проблему «Ханойской башни» для 10 дисков не словами, а действием. Модель мгновенно написала код на Python, который визуализировал и решил задачу за 1023 шага [13:28].

Автор задается риторическим вопросом: если рассуждение — это иллюзия, как модель смогла создать инструмент, решающий сложную задачу? По его мнению, модели демонстрируют поведение, крайне похожее на человеческое: они оценивают сложность, ищут обходные пути и используют внешние инструменты, когда прямая логика становится слишком громоздкой [14:09].

Хотя четких определений «мышления» и «рассуждения» для ИИ до сих пор не существует, Уэс Рот полагает, что имитация этих процессов уже приносит реальные результаты [14:21]. В завершение он иронично спрашивает зрителей: не кажется ли им, что Apple просто отстает, а Стив Джобс, возможно, «переворачивается в гробу», глядя на их текущие успехи в ИИ [14:46]?