Кейт Саенко: как ИИ учится «видеть» без подсказок человека

The TWIML AI Podcast 570 50 мин 3 мин 27.06.2022
Главное

Кейт Саенко: как искусственный интеллект учится видеть через призму языка

0:00

В мире искусственного интеллекта происходит настоящая «золотая лихорадка». Исследователи компьютерного зрения всё чаще отказываются от традиционного ручного разметки данных в пользу использования огромных массивов информации из интернета. О том, как multimodal machine learning (мультимодальное машинное обучение) меняет правила игры, какие ловушки скрываются в данных и как современные модели учатся «понимать» мир без прямой человеческой поддержки, в подкасте The TWIML AI Podcast рассказала Кейт Саенко (Kate Saenko), профессор компьютерных наук Бостонского университета и эксперт MIT-IBM Watson AI lab.

🧠 Мультимодальный прорыв: от lip-reading к «пониманию» мира 4:39

Кейт Саенко отмечает, что мультимодальное обучение — идея не новая. Ещё будучи аспиранткой MIT, она занималась аудиовизуальным распознаванием речи, фактически обучая системы «чтению по губам». Однако текущий революционный сдвиг связан с двумя факторами: масштабом данных и появлением архитектур, таких как визуальные трансформеры.

По словам Саенко, при достижении критической массы параметров и объёма данных в моделях начинают проявляться «эмерджентные свойства» — способности, которые отсутствовали у систем меньшего размера. Яркий пример такого успеха — модель CLIP от OpenAI, которая обучалась на парах «изображение-подпись», собранных из интернета.

Основные преимущества такого подхода:

⚖️ Проблема предвзятости: цена «бесплатных» данных 8:31

Несмотря на эффективность, использование данных из сети несет серьезные риски. Кейт Саенко признает, что предвзятость в датасетах практически неизбежна, так как выборки всегда конечны и отражают существующие общественные стереотипы.

Исследовательница вспоминает свои ранние работы по генерации описаний к изображениям: тогда модели начали выдавать удивительно связный текст, но при этом «учились халтурить».

По мнению Саенко, текущая ситуация напоминает «золотую лихорадку», где побеждает тот, у кого больше данных, но академическому сообществу необходимо продолжать аудит этих гигантских «черных ящиков».

🛠 Методология: подсказки как ключ к эффективности 15:42

В своей работе, представленной на CVPR, Саенко исследует способы адаптации предобученных моделей к конкретным задачам без полноценного переобучения (fine-tuning). Вместо этого используется промпт-инжиниринг.

Метод «позитивного и негативного промпта» работает следующим образом:

  1. Система задает вопрос: «Есть ли в этом изображении [объект]?».
  2. Затем задается инвертированный вопрос: «Есть ли в этом изображении нет [объект]?».
  3. Модель сравнивает вероятности: если позитивный ответ перевешивает, объект считается обнаруженным.

Важным достижением Саенко считает то, что их подход практически не требует обучения новых параметров (всего около 20 тысяч токенов). Это делает модель очень легкой и быстрой в адаптации под нужды пользователя.

🧪 Гибридные данные: реальные и «фейковые» подписи 31:38

В совместном исследовании с Google рассматривается проблема объединения двух типов данных: «грязных» данных из интернета (реальные подписи) и «чистых» классифицированных датасетов (ImageNet).

Чтобы модель не путалась, исследователи предложили простой, но эффективный трюк: добавлять специальные префиксные токены («это реальная подпись» / «это фейковая подпись»).

🌐 Универсальность в изменчивом мире 39:14

Последняя затронутая тема — доменная генерализация (domain generalization) в бесконтрольном режиме. Модели часто ломаются, когда попадают в среду, отличную от тренировочной: например, если алгоритм, обученный на дорогах солнечной Калифорнии, оказывается в условиях бостонской зимы.

Саенко утверждает, что популярные методы самообучения (self-supervised learning) часто терпят неудачу, так как учат модель различать «домен» (например, «это рисунок» vs «это фото»), а не «объект» (например, «это жираф»).

Решение, предложенное группой Кейт Саенко, заключается в создании «мостового домена» (bridge domain), который напоминает контурное изображение.

💬 Цитаты

«Мы находимся в эре „золотой лихорадки“ в том, что касается данных: тот, кто получает доступ к наибольшему количеству, по сути, выигрывает гонку ИИ.»

Кейт Саенко 10:47

«Модели — это очень черные ящики, в которых сложно разобраться и что-то понять.»

Кейт Саенко 15:03
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Multimodal Learning
Обучение моделей на данных разных типов, например, изображениях и тексте одновременно.
Zero-shot learning
Способность модели распознавать объекты без предварительного обучения на примерах этих конкретных объектов.
Shortcut learning
Склонность модели использовать простые статистические закономерности (шум) вместо глубокого анализа содержания.
Prompt tuning
Метод настройки модели путем ввода специальных текстовых подсказок (промптов) без изменения основных весов нейросети.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Kate Saenko Computer Vision Multimodal Learning OpenAI CLIP CVPR