Иман Мирзаде из Apple: «Мы строим самолёт, чтобы долететь до Луны»

В новом эпизоде подкаста Machine Learning Street Talk исследователь Apple Иман Мирзаде (Iman Mirzadeh) подвергает сомнению текущий вектор развития искусственного интеллекта. Основная идея дискуссии заключается в том, что современная индустрия ИИ чрезмерно сфокусирована на «достижениях» (результатах бенчмарков), в то время как истинный интеллект требует глубокого понимания контекста и способности к адаптации, которыми нынешние большие языковые модели (LLM) не обладают.

🧠 Интеллект против достижений: почему цифры лгут 0:00

Иман Мирзаде вводит фундаментальное различие между двумя понятиями: «интеллектом» и «достижениями» . По его мнению, современное машинное обучение зациклено на точности (accuracy) и метриках, что подменяет саму суть создания разумных систем.

Достижения (Achievement): Это способность системы показывать высокий результат в конкретной области или на определённом наборе данных (бенчмарке).
Интеллект (Intelligence): Это внутренняя способность системы обучаться, расти и адаптироваться к совершенно новым целям и условиям за короткое время .

В качестве примера Иман Мирзаде приводит сравнение современных LLM с великими мыслителями прошлого или первобытными людьми . Если бы Аристотелю или пещерному человеку дали тест MMLU или GSM-8K, их результат, скорее всего, был бы близок к нулю. Однако никто не назовёт Аристотеля менее интеллектуальным, чем нейросеть, набравшую 90%. Разница в том, что человек обладает потенциалом освоить эти знания, в то время как LLM демонстрирует лишь заученные статистические паттерны .

♟️ Уроки AlphaZero: знание против мемоизации 1:08

Обсуждая шахматы, Иман Мирзаде подчеркивает, что появление AlphaZero не убило интерес к игре, а, наоборот, улучшило её качество . Гроссмейстеры используют шахматные движки не для бездумного заучивания ходов, а для создания новых теорий и понимания стратегий, которые ИИ находит интуитивно (например, необычные атаки крайними пешками) .

По мнению исследователя, использование инструментов (tool use) языковыми моделями имеет смысл только тогда, когда система способна выработать понимание процесса .

Если LLM использует шахматный движок для победы, но не понимает принципа «контроля центра», она не является интеллектуальной .
Использование внешних инструментов не решает проблему планирования: если задача требует 10 последовательных шагов с разными инструментами, система всё равно столкнется с необходимостью глубокого понимания структуры задачи .

📉 Критика бенчмарков и «эффект банана» 58:32

Иман Мирзаде получил широкую известность благодаря своей работе GSM-Symbolic, которая наделала много шума в социальных сетях . Исследование показало хрупкость «способности к рассуждению» у современных моделей.

Суть эксперимента заключалась в модификации популярного математического бенчмарка GSM-8K:

GSM-Names: В задачах менялись только имена (например, «Эми» на «Джон») без изменения чисел. У некоторых моделей, таких как Phi-2, наблюдался разрыв в точности до 14–20% только из-за смены имён .
GSM-NoOp: К задаче добавлялось одно предложение, которое не несло логической нагрузки (лишнее условие). Точность моделей катастрофически падала, так как они пытались включить это предложение в математическую операцию вместо того, чтобы его проигнорировать .

Иман Мирзаде утверждает, что бенчмарки стали «застывшими срезами реальности» . Модели насыщают эти метрики (показывают 95–99%), потому что косвенно обучаются на данных, похожих на тестовые, но это не означает решения проблемы «зрения» или «мышления». Он проводит параллель с беспилотными автомобилями: в ImageNet зрение казалось «решенным», но реальный изменчивый мир оказался слишком сложным для систем, работающих на фиксированных примерах .

🚀 Сscaling Laws и «наклон обучения» 47:19

В дискуссии затронули тему законов масштабирования (Scaling Laws). Иман Мирзаде выражает скепсис относительно того, что простое увеличение параметров и вычислений приведет к качественному скачку в интеллекте .

Его аргументы по поводу масштабирования:

Наклон против точки: Интеллект — это не то, где вы находитесь на графике эффективности сейчас, а каков наклон (slope) вашей кривой обучения .
Иллюзия эмерджентности: Всегда найдутся те, кто скажет: «Нужно увеличить модель в 10 раз, и тогда рассуждение появится». Это невозможно опровергнуть теоретически, пока кто-то не потратит миллиарды долларов на проверку .
Самолёт на Луну: Если ваша цель — долететь до Луны, вы можете бесконечно улучшать крылья самолёта или качество взлетной полосы, но самолёт по своей конструкции не предназначен для выхода в космос . Иман Мирзаде опасается, что архитектура трансформеров и текущие методы обучения (Cross-entropy loss) могут быть таким «самолётом», который не способен выйти за пределы распределения данных .

🧩 Будущее: абстрактные модели мира и символы 50:34

Для создания по-настоящему разумных систем, по словам гостя, необходимы «абстрактные модели мира» . Текущие модели обучаются предсказывать токены на основе минимизации расстояния между распределениями, что по определению запирает их внутри «коробки» обучающих данных .

Ключевые идеи Имана Мирзаде о будущем ИИ:

Красота представлений: Представление функции в виде полинома ($y = x^2$) «красивее» и интеллектуальнее, чем огромная таблица готовых ответов («lookup table»), так как требует понимания концепций непрерывности и чисел .
Эмерджентные символы: Иман Мирзаде не является сторонником жесткого разделения на символьный ИИ и нейросети. Он считает, что символьное мышление может возникнуть внутри нейронных сетей как часть вычислений (Middle activations) .
Активное вовлечение: Ссылаясь на книгу Станисласа Деана «Как мы учимся», исследователь отмечает, что для интеллекта необходимо «активное вовлечение» и агентность — способность системы самой ставить цели и спрашивать «что мне изучить дальше?», а не просто пассивно наблюдать за данными .

В завершение Иман Мирзаде подчеркивает, что верит в возможность создания Тьюринг-полных нейронных сетей, способных к настоящему символьному рассуждению, но для этого исследователям нужно сделать шаг назад и перестать гнаться за сиюминутными процентами точности в бенчмарках .