Профессор Мелани Митчелл: «Бенчмарки ИИ сломаны, а страхи перед ИИ — это ошибка категории»

В новом выпуске подкаста Machine Learning Street Talk (MLST) ведущие обсуждают с профессором Мелани Митчелл, одной из самых влиятельных фигур в современном ИИ, кризис методологии оценки нейросетей. В центре дискуссии — вопрос о том, можно ли считать успехи больших языковых моделей (LLM) признаком подлинного понимания или мы столкнулись с масштабной интеллектуальной иллюзией, порожденной несовершенством тестов.

🧠 Природа ИИ-интеллекта: понимание или имитация? 0:28

Обсуждение начинается с фундаментального вопроса: является ли угроза ИИ экзистенциальной или это область научной фантастики. Мелани Митчелл утверждает, что ИИ не представляет реальной угрозы в обозримом будущем . Она считает, что современные дебаты о «понимании» в LLM зашли в тупик из-за отсутствия четких определений.

По мнению Митчелл, человеческое понимание опирается на гибкие ментальные модели, заземленные (grounded) в сенсорном опыте . LLM же обучаются исключительно на статистических связях между словами, не имея доступа к причинно-следственной модели реальности.

В ходе беседы участники затронули несколько аспектов этой проблемы:

Антропоморфизм: Ведущие и гость сошлись во мнении, что использование таких слов, как «цель» или «понимание» применительно к ИИ, часто является ошибкой категории.
Ловушка «Глупого сверхинтеллекта»: Митчелл критикует концепцию ИИ, который может решить проблему изменения климата, уничтожив человечество для снижения выбросов углерода . Она называет это «ошибкой глупого сверхинтеллекта»: абсурдно полагать, что машина может превзойти человека во всем, но при этом быть лишенной базового здравого смысла .

📉 Кризис бенчмарков: почему тесты ИИ сломаны 21:03

Центральная часть дискуссии посвящена тому, как мы оцениваем системы ИИ. Митчелл утверждает, что традиционные бенчмарки маскируют реальные механизмы работы моделей и скрывают их катастрофические провалы .

Ключевые тезисы о проблемах тестирования:

Завышенные ожидания: Если машина проходит тест Тьюринга или сдает экзамен на адвоката (Bar Exam), люди машинально приписывают ей человеческий уровень обобщения . Однако, по мнению Митчелл, успех машины в шахматах или тестах не означает наличия у неё универсального интеллекта .
Эффект ИИ (AI Effect): Как только ИИ справляется с задачей, которую раньше считали признаком интеллекта (например, распознавание речи), мы перестаем считать это проявлением «настоящего» ума и отодвигаем планку дальше .
Отсутствие научной методологии: Компьютерные ученые часто не владеют методами экспериментального дизайна, принятыми в психологии . Они не учитывают конфаундинг-эффекты (побочные переменные) и не проводят качественный анализ ошибок.

🧩 Проект ConceptARC и наследие Франсуа Шолле 22:27

Митчелл подробно рассказывает о своем проекте ConceptARC, который стал развитием бенчмарка ARC, созданного Франсуа Шолле (автором Keras и исследователем из Google). Шолле разработал ARC как тест на «абстрактное обобщение», используя визуальные сетки .

Митчелл выделила две проблемы оригинального теста ARC:

Чрезмерная сложность: Задачи настолько трудны, что лучшие программы показывают лишь около 20% точности , что не позволяет различать прогресс разных подходов.
Отсутствие системности: Успех в одной задаче на концепцию «внутри/снаружи» не гарантирует, что модель понимает эту концепцию в целом .

Проект ConceptARC включает почти 500 новых задач, разбитых на концептуальные группы (например, «вложенность», «симметрия») с прогрессивной сложностью . Это позволяет проверить, действительно ли модель освоила концепцию или просто нашла статистическую лазейку.

🧪 Рождение «Машинного когнитивизма» 48:18

Участники обсудили вопиющие примеры того, как ИИ проваливается на простейших задачах, требующих физического здравомыслия. В знаменитой статье Sparks of AGI (от исследователей Microsoft) описывалось, как GPT-4 успешно «балансирует» ноутбук, яйца и гвоздь. Однако Митчелл привела контрпример: на вопрос о балансировке стакана воды поверх зефира (маршмэллоу) ИИ предложил варианты, несовместимые с реальностью .

Для исправления ситуации Митчелл и её коллеги (включая Джошуа Тененбаума из MIT) предлагают:

Анализ неудач на уровне экземпляров: Публиковать не только общую точность (accuracy), но и подробные отчеты о том, на каких именно примерах модель ошиблась .
Контрфактическое тестирование: Требовать от моделей выполнения задач в непривычных доменах, например, сложение в восьмеричной системе вместо десятичной . Исследования показывают, что GPT-4 блестяще справляется с обычными задачами, но резко теряет в качестве на контрфактических тестах .

🌆 Сложность и «Психоистория» 56:36

В финале беседы Митчелл, как Davis Professor в Институте Санта-Фе, коснулась темы теории сложности. Она упомянула исследование «законов масштабирования» (scaling laws) не только в нейросетях, но и в биологии и урбанистике.

Интересные факты о масштабировании в городах:

По мере роста городов темпы инноваций (измеряемые количеством патентов) и уровень потребления энергии меняются согласно нелинейным, но предсказуемым фрактальным законам .
Использование мобильных данных позволяет отслеживать социальное взаимодействие и даже «уровень счастья» в масштабе мегаполиса .

Ведущий Стивен сравнил это с «Психоисторией» из цикла «Основание» Айзека Азимова — математической наукой о поведении масс . Митчелл согласилась, что мы движемся в этом направлении, и подчеркнула, что человеческий интеллект гораздо более социален и коллективен, чем принято считать: мы часто «знаем» что-то только потому, что это знает кто-то другой в нашей социальной сети .