В новом эпизоде подкаста Machine Learning Street Talk исследователь Apple Иман Мирзаде (Iman Mirzadeh) подвергает сомнению текущий вектор развития искусственного интеллекта. Основная идея дискуссии заключается в том, что современная индустрия ИИ чрезмерно сфокусирована на «достижениях» (результатах бенчмарков), в то время как истинный интеллект требует глубокого понимания контекста и способности к адаптации, которыми нынешние большие языковые модели (LLM) не обладают.
🧠 Интеллект против достижений: почему цифры лгут 0:00
Иман Мирзаде вводит фундаментальное различие между двумя понятиями: «интеллектом» и «достижениями» . По его мнению, современное машинное обучение зациклено на точности (accuracy) и метриках, что подменяет саму суть создания разумных систем.
- Достижения (Achievement): Это способность системы показывать высокий результат в конкретной области или на определённом наборе данных (бенчмарке).
- Интеллект (Intelligence): Это внутренняя способность системы обучаться, расти и адаптироваться к совершенно новым целям и условиям за короткое время .
В качестве примера Иман Мирзаде приводит сравнение современных LLM с великими мыслителями прошлого или первобытными людьми . Если бы Аристотелю или пещерному человеку дали тест MMLU или GSM-8K, их результат, скорее всего, был бы близок к нулю. Однако никто не назовёт Аристотеля менее интеллектуальным, чем нейросеть, набравшую 90%. Разница в том, что человек обладает потенциалом освоить эти знания, в то время как LLM демонстрирует лишь заученные статистические паттерны .
♟️ Уроки AlphaZero: знание против мемоизации 1:08
Обсуждая шахматы, Иман Мирзаде подчеркивает, что появление AlphaZero не убило интерес к игре, а, наоборот, улучшило её качество . Гроссмейстеры используют шахматные движки не для бездумного заучивания ходов, а для создания новых теорий и понимания стратегий, которые ИИ находит интуитивно (например, необычные атаки крайними пешками) .
По мнению исследователя, использование инструментов (tool use) языковыми моделями имеет смысл только тогда, когда система способна выработать понимание процесса .
- Если LLM использует шахматный движок для победы, но не понимает принципа «контроля центра», она не является интеллектуальной .
- Использование внешних инструментов не решает проблему планирования: если задача требует 10 последовательных шагов с разными инструментами, система всё равно столкнется с необходимостью глубокого понимания структуры задачи .
📉 Критика бенчмарков и «эффект банана» 58:32
Иман Мирзаде получил широкую известность благодаря своей работе GSM-Symbolic, которая наделала много шума в социальных сетях . Исследование показало хрупкость «способности к рассуждению» у современных моделей.
Суть эксперимента заключалась в модификации популярного математического бенчмарка GSM-8K:
- GSM-Names: В задачах менялись только имена (например, «Эми» на «Джон») без изменения чисел. У некоторых моделей, таких как Phi-2, наблюдался разрыв в точности до 14–20% только из-за смены имён .
- GSM-NoOp: К задаче добавлялось одно предложение, которое не несло логической нагрузки (лишнее условие). Точность моделей катастрофически падала, так как они пытались включить это предложение в математическую операцию вместо того, чтобы его проигнорировать .
Иман Мирзаде утверждает, что бенчмарки стали «застывшими срезами реальности» . Модели насыщают эти метрики (показывают 95–99%), потому что косвенно обучаются на данных, похожих на тестовые, но это не означает решения проблемы «зрения» или «мышления». Он проводит параллель с беспилотными автомобилями: в ImageNet зрение казалось «решенным», но реальный изменчивый мир оказался слишком сложным для систем, работающих на фиксированных примерах .
🚀 Сscaling Laws и «наклон обучения» 47:19
В дискуссии затронули тему законов масштабирования (Scaling Laws). Иман Мирзаде выражает скепсис относительно того, что простое увеличение параметров и вычислений приведет к качественному скачку в интеллекте .
Его аргументы по поводу масштабирования:
- Наклон против точки: Интеллект — это не то, где вы находитесь на графике эффективности сейчас, а каков наклон (slope) вашей кривой обучения .
- Иллюзия эмерджентности: Всегда найдутся те, кто скажет: «Нужно увеличить модель в 10 раз, и тогда рассуждение появится». Это невозможно опровергнуть теоретически, пока кто-то не потратит миллиарды долларов на проверку .
- Самолёт на Луну: Если ваша цель — долететь до Луны, вы можете бесконечно улучшать крылья самолёта или качество взлетной полосы, но самолёт по своей конструкции не предназначен для выхода в космос . Иман Мирзаде опасается, что архитектура трансформеров и текущие методы обучения (Cross-entropy loss) могут быть таким «самолётом», который не способен выйти за пределы распределения данных .
🧩 Будущее: абстрактные модели мира и символы 50:34
Для создания по-настоящему разумных систем, по словам гостя, необходимы «абстрактные модели мира» . Текущие модели обучаются предсказывать токены на основе минимизации расстояния между распределениями, что по определению запирает их внутри «коробки» обучающих данных .
Ключевые идеи Имана Мирзаде о будущем ИИ:
- Красота представлений: Представление функции в виде полинома ($y = x^2$) «красивее» и интеллектуальнее, чем огромная таблица готовых ответов («lookup table»), так как требует понимания концепций непрерывности и чисел .
- Эмерджентные символы: Иман Мирзаде не является сторонником жесткого разделения на символьный ИИ и нейросети. Он считает, что символьное мышление может возникнуть внутри нейронных сетей как часть вычислений (Middle activations) .
- Активное вовлечение: Ссылаясь на книгу Станисласа Деана «Как мы учимся», исследователь отмечает, что для интеллекта необходимо «активное вовлечение» и агентность — способность системы самой ставить цели и спрашивать «что мне изучить дальше?», а не просто пассивно наблюдать за данными .
В завершение Иман Мирзаде подчеркивает, что верит в возможность создания Тьюринг-полных нейронных сетей, способных к настоящему символьному рассуждению, но для этого исследователям нужно сделать шаг назад и перестать гнаться за сиюминутными процентами точности в бенчмарках .