Профессор Мелани Митчелл: «Бенчмарки ИИ сломаны, а страхи перед ИИ — это ошибка категории»

Machine Learning Street Talk 24,9 тыс. 1 ч 1 мин 4 мин 10.09.2023
Главное

В новом выпуске подкаста Machine Learning Street Talk (MLST) ведущие обсуждают с профессором Мелани Митчелл, одной из самых влиятельных фигур в современном ИИ, кризис методологии оценки нейросетей. В центре дискуссии — вопрос о том, можно ли считать успехи больших языковых моделей (LLM) признаком подлинного понимания или мы столкнулись с масштабной интеллектуальной иллюзией, порожденной несовершенством тестов.

🧠 Природа ИИ-интеллекта: понимание или имитация? 0:28

Обсуждение начинается с фундаментального вопроса: является ли угроза ИИ экзистенциальной или это область научной фантастики. Мелани Митчелл утверждает, что ИИ не представляет реальной угрозы в обозримом будущем . Она считает, что современные дебаты о «понимании» в LLM зашли в тупик из-за отсутствия четких определений.

По мнению Митчелл, человеческое понимание опирается на гибкие ментальные модели, заземленные (grounded) в сенсорном опыте . LLM же обучаются исключительно на статистических связях между словами, не имея доступа к причинно-следственной модели реальности.

В ходе беседы участники затронули несколько аспектов этой проблемы:

📉 Кризис бенчмарков: почему тесты ИИ сломаны 21:03

Центральная часть дискуссии посвящена тому, как мы оцениваем системы ИИ. Митчелл утверждает, что традиционные бенчмарки маскируют реальные механизмы работы моделей и скрывают их катастрофические провалы .

Ключевые тезисы о проблемах тестирования:

🧩 Проект ConceptARC и наследие Франсуа Шолле 22:27

Митчелл подробно рассказывает о своем проекте ConceptARC, который стал развитием бенчмарка ARC, созданного Франсуа Шолле (автором Keras и исследователем из Google). Шолле разработал ARC как тест на «абстрактное обобщение», используя визуальные сетки .

Митчелл выделила две проблемы оригинального теста ARC:

  1. Чрезмерная сложность: Задачи настолько трудны, что лучшие программы показывают лишь около 20% точности , что не позволяет различать прогресс разных подходов.
  2. Отсутствие системности: Успех в одной задаче на концепцию «внутри/снаружи» не гарантирует, что модель понимает эту концепцию в целом .

Проект ConceptARC включает почти 500 новых задач, разбитых на концептуальные группы (например, «вложенность», «симметрия») с прогрессивной сложностью . Это позволяет проверить, действительно ли модель освоила концепцию или просто нашла статистическую лазейку.

🧪 Рождение «Машинного когнитивизма» 48:18

Участники обсудили вопиющие примеры того, как ИИ проваливается на простейших задачах, требующих физического здравомыслия. В знаменитой статье Sparks of AGI (от исследователей Microsoft) описывалось, как GPT-4 успешно «балансирует» ноутбук, яйца и гвоздь. Однако Митчелл привела контрпример: на вопрос о балансировке стакана воды поверх зефира (маршмэллоу) ИИ предложил варианты, несовместимые с реальностью .

Для исправления ситуации Митчелл и её коллеги (включая Джошуа Тененбаума из MIT) предлагают:

🌆 Сложность и «Психоистория» 56:36

В финале беседы Митчелл, как Davis Professor в Институте Санта-Фе, коснулась темы теории сложности. Она упомянула исследование «законов масштабирования» (scaling laws) не только в нейросетях, но и в биологии и урбанистике.

Интересные факты о масштабировании в городах:

Ведущий Стивен сравнил это с «Психоисторией» из цикла «Основание» Айзека Азимова — математической наукой о поведении масс . Митчелл согласилась, что мы движемся в этом направлении, и подчеркнула, что человеческий интеллект гораздо более социален и коллективен, чем принято считать: мы часто «знаем» что-то только потому, что это знает кто-то другой в нашей социальной сети .

💬 Цитаты

«Это ошибка — думать, что машина может быть умнее людей во всех отношениях и при этом быть лишенной здравого смысла.»

Мелани Митчелл 3:36

«Компьютерные ученые никогда не обучались экспериментальным методам, они не знают о контрольных группах и конфаундинге.»

Мелани Митчелл 20:00

«Если вы не можете найти априорные знания (priors) в модели, посмотрите в зеркало — возможно, их вложили туда вы сами.»

Тим Скарф 51:23
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Grounding (Заземление)
Связь языковых символов с реальным физическим и социальным опытом.
Stochastic Parrot (Стохастический попугай)
Критический термин для описания LLM как систем, механически комбинирующих вероятные последовательности слов без понимания сути.
Counterfactual task (Контрфактическая задача)
Проверка способности модели применить навык в измененных условиях, которых не было в обучающей выборке.
Scaling Laws (Законы масштабирования)
Математические закономерности, описывающие изменение свойств системы (энергии, интеллекта, инноваций) при изменении её размера.
📊 Цифры
🗓 Хронология
  1. 1990 Мелани Митчелл защищает докторскую диссертацию у Дугласа Хофштадтера.
  2. 2013 Хофштадтер выступает с речью о своих опасениях перед лицом ИИ, предрекая «затмение человечества».
  3. Март 2023 Публикация статьи Митчелл о дебатах вокруг «понимания» в больших языковых моделях.
  4. 2024 Выход новых исследований DeepMind и MIT, ставящих под сомнение способность LLM к рассуждению вне знакомых паттернов.
⚖️ Другая сторона
Искусственный интеллект Melanie Mitchell GPT-4 ConceptARC Douglas Hofstadter François Chollet