# Мелани Митчелл: «Бенчмарки ИИ — это путь к заблуждению»

Источник: https://www.youtube.com/watch?v=29gkDpR2orc
Канал: Machine Learning Street Talk
Опубликовано: 10.09.2023

---

## Кризис измерения интеллекта: почему современные бенчмарки ИИ нас обманывают 🤖
[[JUMP:0:04]]

Современный мир ИИ охвачен «массовым заблуждением»: успехи больших языковых моделей (LLM) в прохождении стандартизированных тестов часто принимаются за признаки подлинного понимания мира. Однако профессор Мелани Митчелл, ведущий эксперт в области искусственного интеллекта и сложных систем, утверждает, что текущие методы оценки систем ИИ фундаментально порочны. В интервью для канала **Machine Learning Street Talk** она объясняет, почему «компетентность без понимания» — это тупиковый путь, и почему для создания настоящего ИИ нам необходим переход к строгой экспериментальной науке о машинном познании.

### Проблема «немой супер-интеллекта» 🧠
[[JUMP:3:24]]

Митчелл предостерегает от «ошибки немой супер-интеллекта» (fallacy of dumb super intelligence). Многие опасаются, что ИИ может стать сверхчеловечески умным в узких задачах, но при этом полностью лишиться здравого смысла, необходимого для понимания человеческих целей. 

По мнению Митчелл, интеллект не является монолитной субстанцией, которую можно «накачивать» бесконечно. Это набор адаптаций к конкретным проблемам в конкретной среде. Идея о том, что можно отделить «чистый» интеллект от биологического субстрата и поместить его в компьютер, является продуктом антропоморфной проекции.

### Ахиллесова пята современных тестов 📉
[[JUMP:21:03]]

Главная проблема нынешних бенчмарков заключается в том, что они содержат скрытые предположения: если человек справляется с задачей, а машина — нет, то мы ищем способы подстроить ИИ под этот конкретный результат. 

1.  **Отсутствие систематичности:** Как отмечает Митчелл, даже если ИИ решает задачу на «вложенность объектов», это не означает, что он понял концепцию «внутри/снаружи» в общем смысле.
2.  **Загрязнение данных (Leakage):** Часто успех модели объясняется не обучением, а «утечкой» знаний из обучающей выборки, где модель просто заучила паттерны.
3.  **Случайный успех:** ИИ может показать отличные результаты в одной конкретной постановке задачи, но провалиться при малейшем изменении условий (например, задача на балансировку объектов).

Вместе с коллегами Митчелл создала **ConceptArc** — набор из почти 500 задач, разбитых по концептуальным группам, чтобы систематически тестировать способность системы к абстрактному мышлению, а не простому распознаванию паттернов.

### Научный подход вместо хайпа 🧪
[[JUMP:19:21]]

Митчелл настаивает на необходимости внедрения методов экспериментальной психологии в компьютерные науки. 

*   **Фокус на ошибках:** Вместо того чтобы хвалиться процентом точности (accuracy), исследователям следует публиковать подробные данные о том, *почему* модель ошибается.
*   **Изучение провалов:** Именно анализ failure modes (режимов отказа) дает ключ к пониманию того, как работает система на самом деле.
*   **Междисциплинарное сотрудничество:** Разработчики ИИ должны теснее работать со специалистами по когнитивной психологии и поведению животных, которые десятилетиями решают проблему того, как отделить «дрессированное повторение» от подлинного знания.

### Масштабирование и общество 🏙️
[[JUMP:57:04]]

Затрагивая тему сложности (complexity), гостья упомянула интересные законы масштабирования социальных систем. Изучение городов показывает, что с ростом населения увеличивается не только энергопотребление, но и «индекс инноваций» (например, количество патентов). 

Митчелл полагает, что этот подход может помочь нам понять и интеллект: человек не обладает «абсолютным» пониманием, его интеллект глубоко социален и распределен. Многие вещи мы «знаем» только потому, что знаем людей, которые являются экспертами в этих областях.