# Профессор Мелани Митчелл: «Бенчмарки ИИ сломаны, а страхи перед ИИ — это ошибка категории»

Источник: https://www.youtube.com/watch?v=29gkDpR2orc
Канал: Machine Learning Street Talk
Опубликовано: 10.09.2023

---

В новом выпуске подкаста Machine Learning Street Talk (MLST) ведущие обсуждают с профессором Мелани Митчелл, одной из самых влиятельных фигур в современном ИИ, кризис методологии оценки нейросетей. В центре дискуссии — вопрос о том, можно ли считать успехи больших языковых моделей (LLM) признаком подлинного понимания или мы столкнулись с масштабной интеллектуальной иллюзией, порожденной несовершенством тестов.

## 🧠 Природа ИИ-интеллекта: понимание или имитация?
[[JUMP:00:28]]

Обсуждение начинается с фундаментального вопроса: является ли угроза ИИ экзистенциальной или это область научной фантастики. Мелани Митчелл утверждает, что ИИ не представляет реальной угрозы в обозримом будущем [0:42]. Она считает, что современные дебаты о «понимании» в LLM зашли в тупик из-за отсутствия четких определений.

По мнению Митчелл, человеческое понимание опирается на гибкие ментальные модели, заземленные (grounded) в сенсорном опыте [2:03]. LLM же обучаются исключительно на статистических связях между словами, не имея доступа к причинно-следственной модели реальности. 

В ходе беседы участники затронули несколько аспектов этой проблемы:

*   **Антропоморфизм:** Ведущие и гость сошлись во мнении, что использование таких слов, как «цель» или «понимание» применительно к ИИ, часто является ошибкой категории.
*   **Ловушка «Глупого сверхинтеллекта»:** Митчелл критикует концепцию ИИ, который может решить проблему изменения климата, уничтожив человечество для снижения выбросов углерода [3:10]. Она называет это «ошибкой глупого сверхинтеллекта»: абсурдно полагать, что машина может превзойти человека во всем, но при этом быть лишенной базового здравого смысла [3:36].

## 📉 Кризис бенчмарков: почему тесты ИИ сломаны
[[JUMP:21:03]]

Центральная часть дискуссии посвящена тому, как мы оцениваем системы ИИ. Митчелл утверждает, что традиционные бенчмарки маскируют реальные механизмы работы моделей и скрывают их катастрофические провалы [2:55].

Ключевые тезисы о проблемах тестирования:

*   **Завышенные ожидания:** Если машина проходит тест Тьюринга или сдает экзамен на адвоката (Bar Exam), люди машинально приписывают ей человеческий уровень обобщения [31:07]. Однако, по мнению Митчелл, успех машины в шахматах или тестах не означает наличия у неё универсального интеллекта [30:41].
*   **Эффект ИИ (AI Effect):** Как только ИИ справляется с задачей, которую раньше считали признаком интеллекта (например, распознавание речи), мы перестаем считать это проявлением «настоящего» ума и отодвигаем планку дальше [18:03].
*   **Отсутствие научной методологии:** Компьютерные ученые часто не владеют методами экспериментального дизайна, принятыми в психологии [20:00]. Они не учитывают конфаундинг-эффекты (побочные переменные) и не проводят качественный анализ ошибок.

## 🧩 Проект ConceptARC и наследие Франсуа Шолле
[[JUMP:22:27]]

Митчелл подробно рассказывает о своем проекте **ConceptARC**, который стал развитием бенчмарка ARC, созданного Франсуа Шолле (автором Keras и исследователем из Google). Шолле разработал ARC как тест на «абстрактное обобщение», используя визуальные сетки [21:03].

Митчелл выделила две проблемы оригинального теста ARC:

1.  **Чрезмерная сложность:** Задачи настолько трудны, что лучшие программы показывают лишь около 20% точности [23:46], что не позволяет различать прогресс разных подходов.
2.  **Отсутствие системности:** Успех в одной задаче на концепцию «внутри/снаружи» не гарантирует, что модель понимает эту концепцию в целом [24:14].

Проект **ConceptARC** включает почти 500 новых задач, разбитых на концептуальные группы (например, «вложенность», «симметрия») с прогрессивной сложностью [1:42]. Это позволяет проверить, действительно ли модель освоила концепцию или просто нашла статистическую лазейку.

## 🧪 Рождение «Машинного когнитивизма»
[[JUMP:48:18]]

Участники обсудили вопиющие примеры того, как ИИ проваливается на простейших задачах, требующих физического здравомыслия. В знаменитой статье *Sparks of AGI* (от исследователей Microsoft) описывалось, как GPT-4 успешно «балансирует» ноутбук, яйца и гвоздь. Однако Митчелл привела контрпример: на вопрос о балансировке стакана воды поверх зефира (маршмэллоу) ИИ предложил варианты, несовместимые с реальностью [49:08].

Для исправления ситуации Митчелл и её коллеги (включая Джошуа Тененбаума из MIT) предлагают:

*   **Анализ неудач на уровне экземпляров:** Публиковать не только общую точность (accuracy), но и подробные отчеты о том, на каких именно примерах модель ошиблась [55:18].
*   **Контрфактическое тестирование:** Требовать от моделей выполнения задач в непривычных доменах, например, сложение в восьмеричной системе вместо десятичной [46:47]. Исследования показывают, что GPT-4 блестяще справляется с обычными задачами, но резко теряет в качестве на контрфактических тестах [47:05].

## 🌆 Сложность и «Психоистория»
[[JUMP:56:36]]

В финале беседы Митчелл, как Davis Professor в Институте Санта-Фе, коснулась темы теории сложности. Она упомянула исследование «законов масштабирования» (scaling laws) не только в нейросетях, но и в биологии и урбанистике.

Интересные факты о масштабировании в городах:

*   По мере роста городов темпы инноваций (измеряемые количеством патентов) и уровень потребления энергии меняются согласно нелинейным, но предсказуемым фрактальным законам [58:11].
*   Использование мобильных данных позволяет отслеживать социальное взаимодействие и даже «уровень счастья» в масштабе мегаполиса [59:45].

Ведущий Стивен сравнил это с «Психоисторией» из цикла «Основание» Айзека Азимова — математической наукой о поведении масс [1:00:22]. Митчелл согласилась, что мы движемся в этом направлении, и подчеркнула, что человеческий интеллект гораздо более социален и коллективен, чем принято считать: мы часто «знаем» что-то только потому, что это знает кто-то другой в нашей социальной сети [1:01:15].