Бин Ким: «Мы должны изучать ИИ как инопланетный организм»

The TWIML AI Podcast 1 тыс. 50 мин 6 мин 09.05.2022
Главное

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Бин Ким (Been Kim), ведущим исследователем Google Brain и приглашённым спикером ICLR 2022. Обсуждение сосредоточено на фундаментальном сдвиге в области интерпретируемости ИИ: от попыток просто «объяснить» работу алгоритмов к глубокому научному изучению нейросетей как сложных «инопланетных» организмов и созданию общего языка для коммуникации между человеком и машиной.

🤖 Бин Ким: путь от робототехники к архитектуре «мозга» 0:47

Бин Ким начала свою научную карьеру в Южной Корее, изучая машиностроение, и продолжила обучение в магистратуре и аспирантуре Массачусетского технологического института (MIT). Первоначально её интересовала робототехника, однако вскоре она осознала физические ограничения этой сферы.

По словам Бин Ким, работа с физическими роботами требует слишком много времени на сборку и тестирование. Переход в область машинного обучения позволил ей «убрать физический аспект» и сосредоточиться на «мозге» системы, что значительно ускорило исследования: компьютер может проводить эксперименты, пока исследователь спит. Последние десять лет её работа в Google Brain была неразрывно связана с темой интерпретируемости (interpretability) — от создания изначально прозрачных моделей до методов пост-хок анализа уже готовых систем.

📉 Кризис интерпретируемости и «проверка на вменяемость» 3:44

Характеризуя текущее состояние индустрии, Бин Ким отмечает, что сообщество всё ещё далеко от полного понимания того, как работают современные модели. В 2018 году она опубликовала на конференции NeurIPS работу, ставшую шокирующим открытием для многих специалистов.

Исследование показало, что многие популярные методы объяснения работы ИИ (например, карты значимости или saliency maps) не проходят простейший тест:

Это открытие вызвало неоднозначную реакцию. Бин Ким признаётся, что даже её собственные методы не прошли эту проверку, что стало для неё разочарованием. С тех пор сообщество стало гораздо строже подходить к валидации методов интерпретируемости, осознав, что «красивая картинка», объясняющая, почему ИИ увидел птицу, — это ещё не доказательство корректности работы системы.

По мнению Бин Ким, выбор метода объяснения сегодня зависит исключительно от конкретной задачи:

🧪 ИИ как объект науки: эффект Гештальта 9:39

Бин Ким предлагает перестать рассматривать ИИ только через призму инженерного дела и начать изучать его как научный объект — подобно тому, как биологи изучают живые организмы. Она предлагает переносить на нейросети методы классической психологии, изучавшие человеческие когнитивные искажения и особенности восприятия.

Одним из примеров такого подхода стало исследование феномена Гештальта в нейросетях. В психологии известен эффект «замыкания» (closure effect): если человеку показать три фигурки «Пакмана», расположенных определённым образом, его мозг автоматически достроит изображение до треугольника, которого на самом деле нет на картинке.

В ходе экспериментов Бин Ким обнаружила:

Бин Ким полагает, что понимание таких врождённых качеств моделей поможет в будущем проектировать более совершенные архитектуры, не тратя ресурсы на обучение ИИ тому, что он и так «понимает» благодаря своей структуре.

🖐️ «Отпечатки пальцев» нейросетей и риски безопасности 21:48

Другое исследование Бин Ким затронуло скрытую информацию в объяснениях моделей. Оказалось, что даже если две нейросети имеют одинаковую архитектуру и обучены на одних и тех же данных, но с разными начальными числами (seeds), их «объяснения» для человека будут выглядеть одинаково, но для другой машины они будут уникальными.

Ключевые факты исследования:

Это открытие имеет серьёзные последствия для безопасности. Бин Ким упоминает работы Морица Хардта (Moritz Hardt) и Катерины Воллер (Caterina Wooler), которые показывают, что через анализ объяснений можно:

  1. Полностью реконструировать проприетарную модель.
  2. Получить доступ к обучающим данным, которые «утекают» через систему объяснений.
  3. В случае с VAE-моделями — восстановить тренировочные изображения на 100%.

🗣️ Создание общего языка: проект Concept Camera 25:50

Бин Ким убеждена, что нам необходим полноценный «язык» для общения с ИИ. Обычных принципов или правил недостаточно, так как у человека и машины разные репрезентативные пространства: мы живем в мире гравитации и биологической смертности, а ИИ — в мире векторов и чисел.

Для сокращения этого разрыва был запущен проект Concept Camera (совместно с командой Google Art & Culture и лондонской студией Nord Project). Вместо того чтобы анализировать каждый пиксель, система использует Concept Activation Vectors (CAV) — векторы активации концептов.

Примеры работы системы:

По мнению Бин Ким, такой диалог через абстрактные концепты (пушистый, полосатый, неправильные границы в биопсии) гораздо эффективнее для экспертов, например врачей, чем простое подсвечивание пикселей на экране.

♟️ AlphaZero и «человечность» искусственного интеллекта 30:33

Особое место в исследованиях Бин Ким занимает изучение AlphaZero — системы, которая играет в шахматы на сверхчеловеческом уровне, побеждая даже мощный движок Stockfish.

Главный вопрос исследования заключался в том, пересекаются ли знания AlphaZero с человеческими представлениями о шахматах. Исследователи обнаружили, что многие человеческие шахматные концепции действительно присутствуют внутри нейросети. Это дает надежду на то, что мы сможем использовать подобные модели как учителей, открывая новые тактики и идеи, которые люди ранее не замечали.

🚀 Будущее: мультиагентный ИИ и синтез подходов 39:20

В завершение беседы Бин Ким поделилась планами на будущее. Она изучает эмерджентное поведение (самопроизвольное возникновение навыков) в мультиагентных системах обучения с подкреплением (RL). Её интересует, как агенты с разным «телом» (например, 10 ног или крылья) будут разделять обязанности для решения общих задач.

Также Бин Ким затронула тему больших языковых моделей (LLM), таких как PaLM. Она призывает к осторожности в оценках и отмечает, что как ученый не готова делать громкие заявления об их «памяти» или «понимании» до проведения строгих экспериментов.

Относительно давнего спора между сторонниками символического ИИ и статистических методов (нейросетей), Бин Ким согласна с Раулем (Raoul), что в критически важных сферах синтез этих подходов неизбежен. По её мнению, символические репрезентации обеспечивают безопасность, в то время как свободные распределенные репрезентации нейросетей дают гибкость, и пока не произойдет фундаментального прорыва, нам придется использовать оба метода.

💬 Цитаты

«Если я просто уберу физический аспект робототехники и займусь мозгом, я смогу двигаться быстрее.»

«Мы должны рассматривать нейронные сети как организмы, которые мы хотим изучать.»

«Существует информация, которую люди не могут считать из объяснений ИИ, но сами машины считывают её почти идеально.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Интерпретируемость (Interpretability)
Способность человека понять причины, по которым ИИ принял то или иное решение.
Saliency Maps
Визуальные инструменты, подсвечивающие области изображения, которые больше всего повлияли на ответ нейросети.
Concept Activation Vectors (CAV)
Математический способ представить абстрактное человеческое понятие (например, «пушистость») в виде вектора внутри нейросети.
Эффект Гештальта
Психологический феномен, при котором мозг воспринимает целое изображение, даже если оно состоит из разрозненных частей.
📊 Цифры
🗓 Хронология
  1. 2018 Публикация работы Sanity Checks for Saliency Maps на конференции NeurIPS.
  2. 2022 Бин Ким выступает с приглашенным докладом на конференции ICLR.
⚖️ Другая сторона
Искусственный интеллект Бин Ким Google Brain AlphaZero interpretability LIME