# Иман Мирзаде из Apple: «Мы строим самолёт, чтобы долететь до Луны»

Источник: https://www.youtube.com/watch?v=yQPduek-Q5s
Канал: Machine Learning Street Talk
Опубликовано: 19.03.2025

---

В новом эпизоде подкаста Machine Learning Street Talk исследователь Apple **Иман Мирзаде (Iman Mirzadeh)** подвергает сомнению текущий вектор развития искусственного интеллекта. Основная идея дискуссии заключается в том, что современная индустрия ИИ чрезмерно сфокусирована на «достижениях» (результатах бенчмарков), в то время как истинный интеллект требует глубокого понимания контекста и способности к адаптации, которыми нынешние большие языковые модели (LLM) не обладают.

## 🧠 Интеллект против достижений: почему цифры лгут
[[JUMP:0:00]]

Иман Мирзаде вводит фундаментальное различие между двумя понятиями: «интеллектом» и «достижениями» [0:14]. По его мнению, современное машинное обучение зациклено на точности (accuracy) и метриках, что подменяет саму суть создания разумных систем.

*   **Достижения (Achievement):** Это способность системы показывать высокий результат в конкретной области или на определённом наборе данных (бенчмарке).
*   **Интеллект (Intelligence):** Это внутренняя способность системы обучаться, расти и адаптироваться к совершенно новым целям и условиям за короткое время [27:40].

В качестве примера Иман Мирзаде приводит сравнение современных LLM с великими мыслителями прошлого или первобытными людьми [30:28]. Если бы Аристотелю или пещерному человеку дали тест MMLU или GSM-8K, их результат, скорее всего, был бы близок к нулю. Однако никто не назовёт Аристотеля менее интеллектуальным, чем нейросеть, набравшую 90%. Разница в том, что человек обладает потенциалом освоить эти знания, в то время как LLM демонстрирует лишь заученные статистические паттерны [31:26].

## ♟️ Уроки AlphaZero: знание против мемоизации
[[JUMP:1:08]]

Обсуждая шахматы, Иман Мирзаде подчеркивает, что появление AlphaZero не убило интерес к игре, а, наоборот, улучшило её качество [6:50]. Гроссмейстеры используют шахматные движки не для бездумного заучивания ходов, а для создания новых теорий и понимания стратегий, которые ИИ находит интуитивно (например, необычные атаки крайними пешками) [7:22].

По мнению исследователя, использование инструментов (tool use) языковыми моделями имеет смысл только тогда, когда система способна выработать понимание процесса [8:31].

*   Если LLM использует шахматный движок для победы, но не понимает принципа «контроля центра», она не является интеллектуальной [9:55].
*   Использование внешних инструментов не решает проблему планирования: если задача требует 10 последовательных шагов с разными инструментами, система всё равно столкнется с необходимостью глубокого понимания структуры задачи [5:07].

## 📉 Критика бенчмарков и «эффект банана»
[[JUMP:58:32]]

Иман Мирзаде получил широкую известность благодаря своей работе **GSM-Symbolic**, которая наделала много шума в социальных сетях [58:45]. Исследование показало хрупкость «способности к рассуждению» у современных моделей.

Суть эксперимента заключалась в модификации популярного математического бенчмарка GSM-8K:

1.  **GSM-Names:** В задачах менялись только имена (например, «Эми» на «Джон») без изменения чисел. У некоторых моделей, таких как Phi-2, наблюдался разрыв в точности до 14–20% только из-за смены имён [1:00:21].
2.  **GSM-NoOp:** К задаче добавлялось одно предложение, которое не несло логической нагрузки (лишнее условие). Точность моделей катастрофически падала, так как они пытались включить это предложение в математическую операцию вместо того, чтобы его проигнорировать [1:00:50].

Иман Мирзаде утверждает, что бенчмарки стали «застывшими срезами реальности» [1:08:19]. Модели насыщают эти метрики (показывают 95–99%), потому что косвенно обучаются на данных, похожих на тестовые, но это не означает решения проблемы «зрения» или «мышления». Он проводит параллель с беспилотными автомобилями: в ImageNet зрение казалось «решенным», но реальный изменчивый мир оказался слишком сложным для систем, работающих на фиксированных примерах [1:08:32].

## 🚀 Сscaling Laws и «наклон обучения»
[[JUMP:47:19]]

В дискуссии затронули тему законов масштабирования (Scaling Laws). Иман Мирзаде выражает скепсис относительно того, что простое увеличение параметров и вычислений приведет к качественному скачку в интеллекте [48:13].

Его аргументы по поводу масштабирования:

*   **Наклон против точки:** Интеллект — это не то, где вы находитесь на графике эффективности сейчас, а каков наклон (slope) вашей кривой обучения [29:19].
*   **Иллюзия эмерджентности:** Всегда найдутся те, кто скажет: «Нужно увеличить модель в 10 раз, и тогда рассуждение появится». Это невозможно опровергнуть теоретически, пока кто-то не потратит миллиарды долларов на проверку [48:53].
*   **Самолёт на Луну:** Если ваша цель — долететь до Луны, вы можете бесконечно улучшать крылья самолёта или качество взлетной полосы, но самолёт по своей конструкции не предназначен для выхода в космос [46:22]. Иман Мирзаде опасается, что архитектура трансформеров и текущие методы обучения (Cross-entropy loss) могут быть таким «самолётом», который не способен выйти за пределы распределения данных [12:33].

## 🧩 Будущее: абстрактные модели мира и символы
[[JUMP:50:34]]

Для создания по-настоящему разумных систем, по словам гостя, необходимы «абстрактные модели мира» [50:40]. Текущие модели обучаются предсказывать токены на основе минимизации расстояния между распределениями, что по определению запирает их внутри «коробки» обучающих данных [12:04].

Ключевые идеи Имана Мирзаде о будущем ИИ:

*   **Красота представлений:** Представление функции в виде полинома ($y = x^2$) «красивее» и интеллектуальнее, чем огромная таблица готовых ответов («lookup table»), так как требует понимания концепций непрерывности и чисел [51:46].
*   **Эмерджентные символы:** Иман Мирзаде не является сторонником жесткого разделения на символьный ИИ и нейросети. Он считает, что символьное мышление может возникнуть внутри нейронных сетей как часть вычислений (Middle activations) [56:13].
*   **Активное вовлечение:** Ссылаясь на книгу Станисласа Деана «Как мы учимся», исследователь отмечает, что для интеллекта необходимо «активное вовлечение» и агентность — способность системы самой ставить цели и спрашивать «что мне изучить дальше?», а не просто пассивно наблюдать за данными [38:10].

В завершение Иман Мирзаде подчеркивает, что верит в возможность создания Тьюринг-полных нейронных сетей, способных к настоящему символьному рассуждению, но для этого исследователям нужно сделать шаг назад и перестать гнаться за сиюминутными процентами точности в бенчмарках [1:11:19].