Apple: «Рассуждения LLM — это иллюзия». Почему Уэс Рот с этим не согласен?

Wes Roth 96,4 тыс. 14 мин 5 мин 09.06.2025
Главное

Стив Джобс однажды назвал компьютер «велосипедом для нашего разума», подчеркивая, что инструменты расширяют человеческие возможности. Однако сегодня компания Apple выступает с неожиданно скептичной позиции: в новом исследовании утверждается, что способность больших языковых моделей (LLM) к логическому рассуждению — это лишь «иллюзия». Блогер и ИИ-аналитик Уэс Рот разбирает доводы Apple и выясняет, действительно ли мы столкнулись с тупиком на пути к сильному искусственному интеллекту (AGI).

🍎 Скептицизм Apple: Иллюзия или реальность? 0:00

Уэс Рот начинает обзор с цитаты Стива Джобса о том, что люди — создатели инструментов . Теперь у нас есть ИИ — «инструмент, создающий инструменты», и Apple активно исследует его границы. В центре внимания — новая статья Apple под названием «Иллюзия мышления» (The Illusion of Thinking), в которой проверяются способности так называемых «рассуждающих моделей» .

Рот отмечает несколько важных аспектов позиции Apple:

Суть претензий Apple сводится к тому, что современные модели хорошо справляются со стандартными тестами (бенчмарками), но это может быть результатом простого запоминания данных из обучающей выборки, а не реального процесса мышления .

🧠 Механика рассуждений: От 2+2 до Ханойской башни 1:35

В последнее время индустрия перешла от моделей, дающих мгновенный ответ, к «большим моделям рассуждений» (Large Reasoning Models). Эти нейросети используют «цепочку мыслей» (Chain of Thought), обдумывая задачу по 20–30 секунд перед ответом . Обычно это значительно улучшает результаты в математике и программировании.

Уэс Рот иллюстрирует разницу в сложности задач на примерах :

  1. Низкая сложность: «Сколько будет 2+2?». Ответ мгновенный, усилий не требуется.
  2. Средняя сложность: «9 умножить на 6». Нужно либо вспомнить таблицу умножения, либо применить быстрый алгоритм в уме .
  3. Высокая сложность: «Сколько простых чисел между 1 и 15 миллионами?». Большинство людей даже не попытаются решить это в уме, понимая, что задача требует огромных вычислительных затрат .

Исследование Apple выделило три типа поведения моделей в зависимости от сложности :

Apple тестировала модели на классических головоломках: «Ханойская башня», прыжки в шашках, переход через реку и другие . Вывод исследователей: модели не развили общих способностей к рассуждению вне рамок изученных паттернов .

⚔️ Контраргументы критиков: Проблема «фонарного столба» 6:41

Не все согласны с выводами Apple. Уэс Рот приводит детальный разбор статьи от блогера Шона Годи . Годи, хотя и не верит в скорое пришествие супер интеллекта, считает методологию Apple несовершенной.

Основные пункты критики Шона Годи:

По мнению Уэса Рота, выбор головоломок в качестве прокси для измерения интеллекта — спорное решение . Шон Годи сравнивает это с утверждением, что прогресса в ИИ нет, потому что модели не стали лучше писать сонеты в стиле Петрарки со времен GPT-3.5 .

🤖 Поведение DeepSeek R1: Человеческая лень или технический лимит? 9:42

Интересные результаты показала проверка новой модели DeepSeek R1 на задачах Apple. Когда модели дали «Ханойскую башню» с 10 дисками, она проделала базовые вычисления и поняла, что количество ходов будет огромным .

Результаты эксперимента:

🛠️ Вывод: Инструмент для создания инструментов 13:15

В качестве финального теста Уэс Рот попросил модель Gemini 1.5 Pro решить проблему «Ханойской башни» для 10 дисков не словами, а действием. Модель мгновенно написала код на Python, который визуализировал и решил задачу за 1023 шага .

Автор задается риторическим вопросом: если рассуждение — это иллюзия, как модель смогла создать инструмент, решающий сложную задачу? По его мнению, модели демонстрируют поведение, крайне похожее на человеческое: они оценивают сложность, ищут обходные пути и используют внешние инструменты, когда прямая логика становится слишком громоздкой .

Хотя четких определений «мышления» и «рассуждения» для ИИ до сих пор не существует, Уэс Рот полагает, что имитация этих процессов уже приносит реальные результаты . В завершение он иронично спрашивает зрителей: не кажется ли им, что Apple просто отстает, а Стив Джобс, возможно, «переворачивается в гробу», глядя на их текущие успехи в ИИ ?

💬 Цитаты

«Мы, люди, — создатели инструментов. Компьютер для меня — это велосипед для нашего разума.»

Стив Джобс (цитата Уэса Рота) 00:00

«У Apple, я думаю, мы все согласимся, худшие продукты в сфере ИИ. Странно, что они публикуют исследования о том, почему то, что делают остальные, не работает.»

«Если вы просите меня решить задачу с 10 дисками Ханойской башни, вы думаете, я буду сидеть и выписывать тысячи ходов? Нет, я создам инструмент.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
LLM (Large Language Model)
Большая языковая модель, тип искусственного интеллекта, обученный на огромных массивах текста.
AGI (Artificial General Intelligence)
Общий искусственный интеллект, способный выполнять любую интеллектуальную задачу на уровне человека.
Chain of Thought (Цепочка мыслей)
Техника, при которой ИИ пошагово объясняет процесс решения задачи перед выдачей финального ответа.
Ханойская башня
Математическая головоломка, требующая переноса пирамиды из дисков разного размера с одного стержня на другой по определенным правилам.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Apple Wes Roth LLM DeepSeek R1 Ханойская башня