Мелани Митчелл: «Бенчмарки ИИ — это путь к заблуждению»

Кризис измерения интеллекта: почему современные бенчмарки ИИ нас обманывают 🤖 0:04

Современный мир ИИ охвачен «массовым заблуждением»: успехи больших языковых моделей (LLM) в прохождении стандартизированных тестов часто принимаются за признаки подлинного понимания мира. Однако профессор Мелани Митчелл, ведущий эксперт в области искусственного интеллекта и сложных систем, утверждает, что текущие методы оценки систем ИИ фундаментально порочны. В интервью для канала Machine Learning Street Talk она объясняет, почему «компетентность без понимания» — это тупиковый путь, и почему для создания настоящего ИИ нам необходим переход к строгой экспериментальной науке о машинном познании.

Проблема «немой супер-интеллекта» 🧠 3:24

Митчелл предостерегает от «ошибки немой супер-интеллекта» (fallacy of dumb super intelligence). Многие опасаются, что ИИ может стать сверхчеловечески умным в узких задачах, но при этом полностью лишиться здравого смысла, необходимого для понимания человеческих целей.

По мнению Митчелл, интеллект не является монолитной субстанцией, которую можно «накачивать» бесконечно. Это набор адаптаций к конкретным проблемам в конкретной среде. Идея о том, что можно отделить «чистый» интеллект от биологического субстрата и поместить его в компьютер, является продуктом антропоморфной проекции.

Ахиллесова пята современных тестов 📉 21:03

Главная проблема нынешних бенчмарков заключается в том, что они содержат скрытые предположения: если человек справляется с задачей, а машина — нет, то мы ищем способы подстроить ИИ под этот конкретный результат.

Отсутствие систематичности: Как отмечает Митчелл, даже если ИИ решает задачу на «вложенность объектов», это не означает, что он понял концепцию «внутри/снаружи» в общем смысле.
Загрязнение данных (Leakage): Часто успех модели объясняется не обучением, а «утечкой» знаний из обучающей выборки, где модель просто заучила паттерны.
Случайный успех: ИИ может показать отличные результаты в одной конкретной постановке задачи, но провалиться при малейшем изменении условий (например, задача на балансировку объектов).

Вместе с коллегами Митчелл создала ConceptArc — набор из почти 500 задач, разбитых по концептуальным группам, чтобы систематически тестировать способность системы к абстрактному мышлению, а не простому распознаванию паттернов.

Научный подход вместо хайпа 🧪 19:21

Митчелл настаивает на необходимости внедрения методов экспериментальной психологии в компьютерные науки.

Фокус на ошибках: Вместо того чтобы хвалиться процентом точности (accuracy), исследователям следует публиковать подробные данные о том, почему модель ошибается.
Изучение провалов: Именно анализ failure modes (режимов отказа) дает ключ к пониманию того, как работает система на самом деле.
Междисциплинарное сотрудничество: Разработчики ИИ должны теснее работать со специалистами по когнитивной психологии и поведению животных, которые десятилетиями решают проблему того, как отделить «дрессированное повторение» от подлинного знания.

Масштабирование и общество 🏙️ 57:04

Затрагивая тему сложности (complexity), гостья упомянула интересные законы масштабирования социальных систем. Изучение городов показывает, что с ростом населения увеличивается не только энергопотребление, но и «индекс инноваций» (например, количество патентов).

Митчелл полагает, что этот подход может помочь нам понять и интеллект: человек не обладает «абсолютным» пониманием, его интеллект глубоко социален и распределен. Многие вещи мы «знаем» только потому, что знаем людей, которые являются экспертами в этих областях.