Кейт Саенко: как искусственный интеллект учится видеть через призму языка
В мире искусственного интеллекта происходит настоящая «золотая лихорадка». Исследователи компьютерного зрения всё чаще отказываются от традиционного ручного разметки данных в пользу использования огромных массивов информации из интернета. О том, как multimodal machine learning (мультимодальное машинное обучение) меняет правила игры, какие ловушки скрываются в данных и как современные модели учатся «понимать» мир без прямой человеческой поддержки, в подкасте The TWIML AI Podcast рассказала Кейт Саенко (Kate Saenko), профессор компьютерных наук Бостонского университета и эксперт MIT-IBM Watson AI lab.
🧠 Мультимодальный прорыв: от lip-reading к «пониманию» мира 4:39
Кейт Саенко отмечает, что мультимодальное обучение — идея не новая. Ещё будучи аспиранткой MIT, она занималась аудиовизуальным распознаванием речи, фактически обучая системы «чтению по губам». Однако текущий революционный сдвиг связан с двумя факторами: масштабом данных и появлением архитектур, таких как визуальные трансформеры.
По словам Саенко, при достижении критической массы параметров и объёма данных в моделях начинают проявляться «эмерджентные свойства» — способности, которые отсутствовали у систем меньшего размера. Яркий пример такого успеха — модель CLIP от OpenAI, которая обучалась на парах «изображение-подпись», собранных из интернета.
Основные преимущества такого подхода:
- Использование «бесплатных» данных: вместо дорогостоящей ручной разметки (как в ImageNet) модели обучаются на огромных массивах контента из интернета.
- Zero-shot learning: модели способны распознавать категории объектов, которые они никогда не видели ранее в процессе обучения, что значительно превосходит показатели традиционных классификаторов.
⚖️ Проблема предвзятости: цена «бесплатных» данных 8:31
Несмотря на эффективность, использование данных из сети несет серьезные риски. Кейт Саенко признает, что предвзятость в датасетах практически неизбежна, так как выборки всегда конечны и отражают существующие общественные стереотипы.
Исследовательница вспоминает свои ранние работы по генерации описаний к изображениям: тогда модели начали выдавать удивительно связный текст, но при этом «учились халтурить».
- Эффект «короткого пути» (shortcut learning): если в датасете большинство изображений сноубордистов сопровождались подписью «мужчина на сноуборде», модель начинала автоматически добавлять «мужчина» в описание, как только видела снег, не пытаясь детально анализировать само изображение.
По мнению Саенко, текущая ситуация напоминает «золотую лихорадку», где побеждает тот, у кого больше данных, но академическому сообществу необходимо продолжать аудит этих гигантских «черных ящиков».
🛠 Методология: подсказки как ключ к эффективности 15:42
В своей работе, представленной на CVPR, Саенко исследует способы адаптации предобученных моделей к конкретным задачам без полноценного переобучения (fine-tuning). Вместо этого используется промпт-инжиниринг.
Метод «позитивного и негативного промпта» работает следующим образом:
- Система задает вопрос: «Есть ли в этом изображении [объект]?».
- Затем задается инвертированный вопрос: «Есть ли в этом изображении нет [объект]?».
- Модель сравнивает вероятности: если позитивный ответ перевешивает, объект считается обнаруженным.
Важным достижением Саенко считает то, что их подход практически не требует обучения новых параметров (всего около 20 тысяч токенов). Это делает модель очень легкой и быстрой в адаптации под нужды пользователя.
🧪 Гибридные данные: реальные и «фейковые» подписи 31:38
В совместном исследовании с Google рассматривается проблема объединения двух типов данных: «грязных» данных из интернета (реальные подписи) и «чистых» классифицированных датасетов (ImageNet).
Чтобы модель не путалась, исследователи предложили простой, но эффективный трюк: добавлять специальные префиксные токены («это реальная подпись» / «это фейковая подпись»).
- При получении токена «фейковая подпись» модель фокусируется только на существительном (названии объекта).
- При получении токена «реальная подпись» модель начинает учитывать семантические нюансы всей фразы.
🌐 Универсальность в изменчивом мире 39:14
Последняя затронутая тема — доменная генерализация (domain generalization) в бесконтрольном режиме. Модели часто ломаются, когда попадают в среду, отличную от тренировочной: например, если алгоритм, обученный на дорогах солнечной Калифорнии, оказывается в условиях бостонской зимы.
Саенко утверждает, что популярные методы самообучения (self-supervised learning) часто терпят неудачу, так как учат модель различать «домен» (например, «это рисунок» vs «это фото»), а не «объект» (например, «это жираф»).
Решение, предложенное группой Кейт Саенко, заключается в создании «мостового домена» (bridge domain), который напоминает контурное изображение.
- Этот «мост» отсекает визуальный шум и цветовые искажения, оставляя только семантически значимые очертания.
- Система обучается сопоставлять объекты через этот «скелетный» слой, благодаря чему модель начинает видеть «жирафность» объекта вне зависимости от того, нарисован он мелом или сфотографирован на камеру.