Мелани Митчелл: «Бенчмарки ИИ — это путь к заблуждению»

Machine Learning Street Talk 24,9 тыс. 1 ч 1 мин 2 мин 10.09.2023
Главное

Кризис измерения интеллекта: почему современные бенчмарки ИИ нас обманывают 🤖 0:04

Современный мир ИИ охвачен «массовым заблуждением»: успехи больших языковых моделей (LLM) в прохождении стандартизированных тестов часто принимаются за признаки подлинного понимания мира. Однако профессор Мелани Митчелл, ведущий эксперт в области искусственного интеллекта и сложных систем, утверждает, что текущие методы оценки систем ИИ фундаментально порочны. В интервью для канала Machine Learning Street Talk она объясняет, почему «компетентность без понимания» — это тупиковый путь, и почему для создания настоящего ИИ нам необходим переход к строгой экспериментальной науке о машинном познании.

Проблема «немой супер-интеллекта» 🧠 3:24

Митчелл предостерегает от «ошибки немой супер-интеллекта» (fallacy of dumb super intelligence). Многие опасаются, что ИИ может стать сверхчеловечески умным в узких задачах, но при этом полностью лишиться здравого смысла, необходимого для понимания человеческих целей.

По мнению Митчелл, интеллект не является монолитной субстанцией, которую можно «накачивать» бесконечно. Это набор адаптаций к конкретным проблемам в конкретной среде. Идея о том, что можно отделить «чистый» интеллект от биологического субстрата и поместить его в компьютер, является продуктом антропоморфной проекции.

Ахиллесова пята современных тестов 📉 21:03

Главная проблема нынешних бенчмарков заключается в том, что они содержат скрытые предположения: если человек справляется с задачей, а машина — нет, то мы ищем способы подстроить ИИ под этот конкретный результат.

  1. Отсутствие систематичности: Как отмечает Митчелл, даже если ИИ решает задачу на «вложенность объектов», это не означает, что он понял концепцию «внутри/снаружи» в общем смысле.
  2. Загрязнение данных (Leakage): Часто успех модели объясняется не обучением, а «утечкой» знаний из обучающей выборки, где модель просто заучила паттерны.
  3. Случайный успех: ИИ может показать отличные результаты в одной конкретной постановке задачи, но провалиться при малейшем изменении условий (например, задача на балансировку объектов).

Вместе с коллегами Митчелл создала ConceptArc — набор из почти 500 задач, разбитых по концептуальным группам, чтобы систематически тестировать способность системы к абстрактному мышлению, а не простому распознаванию паттернов.

Научный подход вместо хайпа 🧪 19:21

Митчелл настаивает на необходимости внедрения методов экспериментальной психологии в компьютерные науки.

Масштабирование и общество 🏙️ 57:04

Затрагивая тему сложности (complexity), гостья упомянула интересные законы масштабирования социальных систем. Изучение городов показывает, что с ростом населения увеличивается не только энергопотребление, но и «индекс инноваций» (например, количество патентов).

Митчелл полагает, что этот подход может помочь нам понять и интеллект: человек не обладает «абсолютным» пониманием, его интеллект глубоко социален и распределен. Многие вещи мы «знаем» только потому, что знаем людей, которые являются экспертами в этих областях.

💬 Цитаты

«ИИ вынуждает людей уточнять свои понятия, которые до этого были весьма расплывчатыми.»

Мелани Митчелл 18:03

«В науке самые интересные вещи — это неудачи. Именно на них нужно фокусироваться.»

Мелани Митчелл 55:05
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
ARC (Abstraction and Reasoning Corpus)
Тест Франсуа Шолле на «человекоподобный» интеллект, основанный на абстрактных визуальных задачах.
ConceptArc
Расширение теста ARC, созданное для систематического тестирования конкретных концепций.
Stochastic parrot
Критика языковых моделей как систем, которые лишь статистически имитируют речь, не понимая смысла сказанного.
Nativism / Empiricism debate
Философский спор о том, что в разуме является врожденным, а что — приобретенным с опытом.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Melanie Mitchell ConceptArc LLM Machine Learning Street Talk