Бин Ким: «Мы должны изучать ИИ как инопланетный организм»

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Бин Ким (Been Kim), ведущим исследователем Google Brain и приглашённым спикером ICLR 2022. Обсуждение сосредоточено на фундаментальном сдвиге в области интерпретируемости ИИ: от попыток просто «объяснить» работу алгоритмов к глубокому научному изучению нейросетей как сложных «инопланетных» организмов и созданию общего языка для коммуникации между человеком и машиной.

🤖 Бин Ким: путь от робототехники к архитектуре «мозга» 0:47

Бин Ким начала свою научную карьеру в Южной Корее, изучая машиностроение, и продолжила обучение в магистратуре и аспирантуре Массачусетского технологического института (MIT). Первоначально её интересовала робототехника, однако вскоре она осознала физические ограничения этой сферы.

По словам Бин Ким, работа с физическими роботами требует слишком много времени на сборку и тестирование. Переход в область машинного обучения позволил ей «убрать физический аспект» и сосредоточиться на «мозге» системы, что значительно ускорило исследования: компьютер может проводить эксперименты, пока исследователь спит. Последние десять лет её работа в Google Brain была неразрывно связана с темой интерпретируемости (interpretability) — от создания изначально прозрачных моделей до методов пост-хок анализа уже готовых систем.

📉 Кризис интерпретируемости и «проверка на вменяемость» 3:44

Характеризуя текущее состояние индустрии, Бин Ким отмечает, что сообщество всё ещё далеко от полного понимания того, как работают современные модели. В 2018 году она опубликовала на конференции NeurIPS работу, ставшую шокирующим открытием для многих специалистов.

Исследование показало, что многие популярные методы объяснения работы ИИ (например, карты значимости или saliency maps) не проходят простейший тест:

Если взять обученную модель и полностью рандомизировать её веса (превратив в «мусор»), визуальные объяснения, которые она выдаёт, остаются практически идентичными объяснениям от качественной модели.
Человек, глядя на эти картинки, не может отличить работу сложного алгоритма от случайного шума.

Это открытие вызвало неоднозначную реакцию. Бин Ким признаётся, что даже её собственные методы не прошли эту проверку, что стало для неё разочарованием. С тех пор сообщество стало гораздо строже подходить к валидации методов интерпретируемости, осознав, что «красивая картинка», объясняющая, почему ИИ увидел птицу, — это ещё не доказательство корректности работы системы.

По мнению Бин Ким, выбор метода объяснения сегодня зависит исключительно от конкретной задачи:

LIME: Элегантный и простой метод, но он плохо работает, если границы принятия решений в модели слишком сложные и криволинейные.
SHAP: Популярен, но может быть вычислительно слишком дорогим для задач, требующих мгновенных решений.
TCAV и Grad-CAM: Также находят применение в зависимости от домена, но «универсальной таблетки» не существует.

🧪 ИИ как объект науки: эффект Гештальта 9:39

Бин Ким предлагает перестать рассматривать ИИ только через призму инженерного дела и начать изучать его как научный объект — подобно тому, как биологи изучают живые организмы. Она предлагает переносить на нейросети методы классической психологии, изучавшие человеческие когнитивные искажения и особенности восприятия.

Одним из примеров такого подхода стало исследование феномена Гештальта в нейросетях. В психологии известен эффект «замыкания» (closure effect): если человеку показать три фигурки «Пакмана», расположенных определённым образом, его мозг автоматически достроит изображение до треугольника, которого на самом деле нет на картинке.

В ходе экспериментов Бин Ким обнаружила:

Нейросети обладают эффектом Гештальта: Они также способны «заполнять пробелы» в данных без явного обучения этому.
Связь с обобщением: Этот эффект проявляется только в моделях, которые успешно обучились обобщать данные. В переобученных (overfitted) моделях, которые просто запомнили случайные метки, эффект Гештальта отсутствует.
Структурная зависимость: Если разрушить локальную структуру пикселей, эффект исчезает, что доказывает его связь с пространственным восприятием.

Бин Ким полагает, что понимание таких врождённых качеств моделей поможет в будущем проектировать более совершенные архитектуры, не тратя ресурсы на обучение ИИ тому, что он и так «понимает» благодаря своей структуре.

🖐️ «Отпечатки пальцев» нейросетей и риски безопасности 21:48

Другое исследование Бин Ким затронуло скрытую информацию в объяснениях моделей. Оказалось, что даже если две нейросети имеют одинаковую архитектуру и обучены на одних и тех же данных, но с разными начальными числами (seeds), их «объяснения» для человека будут выглядеть одинаково, но для другой машины они будут уникальными.

Ключевые факты исследования:

Машины способны определить, какая именно модель выдала конкретное объяснение, с точностью до 96-99%.
Этот эффект называют «снятием отпечатков пальцев» (fingerprinting) модели.

Это открытие имеет серьёзные последствия для безопасности. Бин Ким упоминает работы Морица Хардта (Moritz Hardt) и Катерины Воллер (Caterina Wooler), которые показывают, что через анализ объяснений можно:

Полностью реконструировать проприетарную модель.
Получить доступ к обучающим данным, которые «утекают» через систему объяснений.
В случае с VAE-моделями — восстановить тренировочные изображения на 100%.

🗣️ Создание общего языка: проект Concept Camera 25:50

Бин Ким убеждена, что нам необходим полноценный «язык» для общения с ИИ. Обычных принципов или правил недостаточно, так как у человека и машины разные репрезентативные пространства: мы живем в мире гравитации и биологической смертности, а ИИ — в мире векторов и чисел.

Для сокращения этого разрыва был запущен проект Concept Camera (совместно с командой Google Art & Culture и лондонской студией Nord Project). Вместо того чтобы анализировать каждый пиксель, система использует Concept Activation Vectors (CAV) — векторы активации концептов.

Примеры работы системы:

Пользователь может показать ИИ фотографию цветка и сказать: «Это напоминает мне о младенцах, потому что растение маленькое». ИИ находит в своем эмбеддинг-пространстве концепт «нежности» или «масштаба» и возвращает другие изображения, которые вызывают у него те же ассоциации (например, вид океана).
Художница, участвовавшая в проекте, создала концепт «отец», собрав коллекцию абстрактных образов: океан, размытые листья. Модель смогла выделить общие признаки в этих данных и найти этот «настроение» в других изображениях.

По мнению Бин Ким, такой диалог через абстрактные концепты (пушистый, полосатый, неправильные границы в биопсии) гораздо эффективнее для экспертов, например врачей, чем простое подсвечивание пикселей на экране.

♟️ AlphaZero и «человечность» искусственного интеллекта 30:33

Особое место в исследованиях Бин Ким занимает изучение AlphaZero — системы, которая играет в шахматы на сверхчеловеческом уровне, побеждая даже мощный движок Stockfish.

Главный вопрос исследования заключался в том, пересекаются ли знания AlphaZero с человеческими представлениями о шахматах. Исследователи обнаружили, что многие человеческие шахматные концепции действительно присутствуют внутри нейросети. Это дает надежду на то, что мы сможем использовать подобные модели как учителей, открывая новые тактики и идеи, которые люди ранее не замечали.

🚀 Будущее: мультиагентный ИИ и синтез подходов 39:20

В завершение беседы Бин Ким поделилась планами на будущее. Она изучает эмерджентное поведение (самопроизвольное возникновение навыков) в мультиагентных системах обучения с подкреплением (RL). Её интересует, как агенты с разным «телом» (например, 10 ног или крылья) будут разделять обязанности для решения общих задач.

Также Бин Ким затронула тему больших языковых моделей (LLM), таких как PaLM. Она призывает к осторожности в оценках и отмечает, что как ученый не готова делать громкие заявления об их «памяти» или «понимании» до проведения строгих экспериментов.

Относительно давнего спора между сторонниками символического ИИ и статистических методов (нейросетей), Бин Ким согласна с Раулем (Raoul), что в критически важных сферах синтез этих подходов неизбежен. По её мнению, символические репрезентации обеспечивают безопасность, в то время как свободные распределенные репрезентации нейросетей дают гибкость, и пока не произойдет фундаментального прорыва, нам придется использовать оба метода.