Иман Мирзаде из Apple: «Мы строим самолёт, чтобы долететь до Луны»

Machine Learning Street Talk 11,5 тыс. 1 ч 11 мин 4 мин 19.03.2025
Главное

В новом эпизоде подкаста Machine Learning Street Talk исследователь Apple Иман Мирзаде (Iman Mirzadeh) подвергает сомнению текущий вектор развития искусственного интеллекта. Основная идея дискуссии заключается в том, что современная индустрия ИИ чрезмерно сфокусирована на «достижениях» (результатах бенчмарков), в то время как истинный интеллект требует глубокого понимания контекста и способности к адаптации, которыми нынешние большие языковые модели (LLM) не обладают.

🧠 Интеллект против достижений: почему цифры лгут 0:00

Иман Мирзаде вводит фундаментальное различие между двумя понятиями: «интеллектом» и «достижениями» . По его мнению, современное машинное обучение зациклено на точности (accuracy) и метриках, что подменяет саму суть создания разумных систем.

В качестве примера Иман Мирзаде приводит сравнение современных LLM с великими мыслителями прошлого или первобытными людьми . Если бы Аристотелю или пещерному человеку дали тест MMLU или GSM-8K, их результат, скорее всего, был бы близок к нулю. Однако никто не назовёт Аристотеля менее интеллектуальным, чем нейросеть, набравшую 90%. Разница в том, что человек обладает потенциалом освоить эти знания, в то время как LLM демонстрирует лишь заученные статистические паттерны .

♟️ Уроки AlphaZero: знание против мемоизации 1:08

Обсуждая шахматы, Иман Мирзаде подчеркивает, что появление AlphaZero не убило интерес к игре, а, наоборот, улучшило её качество . Гроссмейстеры используют шахматные движки не для бездумного заучивания ходов, а для создания новых теорий и понимания стратегий, которые ИИ находит интуитивно (например, необычные атаки крайними пешками) .

По мнению исследователя, использование инструментов (tool use) языковыми моделями имеет смысл только тогда, когда система способна выработать понимание процесса .

📉 Критика бенчмарков и «эффект банана» 58:32

Иман Мирзаде получил широкую известность благодаря своей работе GSM-Symbolic, которая наделала много шума в социальных сетях . Исследование показало хрупкость «способности к рассуждению» у современных моделей.

Суть эксперимента заключалась в модификации популярного математического бенчмарка GSM-8K:

  1. GSM-Names: В задачах менялись только имена (например, «Эми» на «Джон») без изменения чисел. У некоторых моделей, таких как Phi-2, наблюдался разрыв в точности до 14–20% только из-за смены имён .
  2. GSM-NoOp: К задаче добавлялось одно предложение, которое не несло логической нагрузки (лишнее условие). Точность моделей катастрофически падала, так как они пытались включить это предложение в математическую операцию вместо того, чтобы его проигнорировать .

Иман Мирзаде утверждает, что бенчмарки стали «застывшими срезами реальности» . Модели насыщают эти метрики (показывают 95–99%), потому что косвенно обучаются на данных, похожих на тестовые, но это не означает решения проблемы «зрения» или «мышления». Он проводит параллель с беспилотными автомобилями: в ImageNet зрение казалось «решенным», но реальный изменчивый мир оказался слишком сложным для систем, работающих на фиксированных примерах .

🚀 Сscaling Laws и «наклон обучения» 47:19

В дискуссии затронули тему законов масштабирования (Scaling Laws). Иман Мирзаде выражает скепсис относительно того, что простое увеличение параметров и вычислений приведет к качественному скачку в интеллекте .

Его аргументы по поводу масштабирования:

🧩 Будущее: абстрактные модели мира и символы 50:34

Для создания по-настоящему разумных систем, по словам гостя, необходимы «абстрактные модели мира» . Текущие модели обучаются предсказывать токены на основе минимизации расстояния между распределениями, что по определению запирает их внутри «коробки» обучающих данных .

Ключевые идеи Имана Мирзаде о будущем ИИ:

В завершение Иман Мирзаде подчеркивает, что верит в возможность создания Тьюринг-полных нейронных сетей, способных к настоящему символьному рассуждению, но для этого исследователям нужно сделать шаг назад и перестать гнаться за сиюминутными процентами точности в бенчмарках .

💬 Цитаты

«Интеллект — это не то, где вы находитесь на шкале сейчас, это наклон кривой масштабирования.»

Иман Мирзаде 29:19

«Вы можете бесконечно улучшать крылья самолёта, но это не поможет вам приземлиться на Луне.»

Иман Мирзаде 46:22

«Если вы поменяете бананы на апельсины в задаче и модель ошибется — она не понимает задачу.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Cross-entropy loss
Стандартная функция потерь, заставляющая модель предсказывать наиболее вероятное следующее слово.
GSM-8K
Популярный набор данных из 8000 школьных математических задач для проверки ИИ.
Turing completeness
Способность системы вычислить любую логически возможную функцию при наличии времени и памяти.
Zero-shot / Eight-shot
Способность модели решать задачу без примеров или с восьмью примерами в промпте.
📊 Цифры
🗓 Хронология
  1. 1988 Публикация критики коннекционизма Фодором и Пылишиным.
  2. 1990 Смоленский аргументирует в пользу возникновения символьного мышления в нейросетях.
  3. 2024 Публикация работы GSM-Symbolic и участие Мирзаде в подкасте MLST.
⚖️ Другая сторона
Искусственный интеллект Иман Мирзаде Apple Scaling Laws GSM-Symbolic LLM reasoning