Как DeepMind Flamingo и Google LiT меняют мультимодальный ИИ

В новом выпуске ML News исследователь ИИ Янник Кильхер (Yannic Kilcher) анализирует главные события в мире машинного обучения, включая громкий релиз мультимодальной модели Flamingo от DeepMind. В центре внимания — архитектурные инновации, позволяющие объединять зрение и текст, методы эффективной настройки моделей через Locked-Image Tuning от Google, а также попытки стартапа AI21 Labs подружить нейросети с классическими алгоритмами в системе Jurassic X.

🦩 Flamingo: мультимодальный «GPT-3» от DeepMind 0:30

DeepMind представила Flamingo — визуально-языковую модель (VLM), которая призвана стать для мультимодальных задач тем же, чем GPT-3 стала для обработки естественного языка . Модель способна принимать на вход последовательности изображений и текста, выдавая текстовые ответы в разговорном режиме.

Ключевые особенности архитектуры Flamingo:

Замороженные компоненты: Модель строится на базе уже предобученных и «замороженных» (frozen) систем. Визуальный энкодер и языковая модель не меняются в процессе обучения .
Адаптеры: Обучение заключается исключительно в настройке промежуточных слоёв-адаптеров, которые связывают две разные модальности.
Perceiver Resampler: Изображение проходит через блок Perceiver, который преобразует визуальные данные в фиксированный набор скрытых (latent) запросов, облегчая работу языковой модели .
Gated Cross-Attention: Информация от визуального блока поступает в языковой трансформер через специальные слои перекрёстного внимания .

Янник Кильхер обращает внимание на стратегию продвижения DeepMind, которую он считает заимствованной у OpenAI: компания даёт доступ к модели узкой группе доверенных бета-тестеров, которые затем публикуют результаты в социальных сетях. По мнению автора, это создаёт иллюзию органического охвата, хотя на деле выдача результатов строго контролируется .

В качестве примера возможностей модели приводится разбор известной фотографии с Бараком Обамой, который в шутку наступил на весы за спиной человека. Янник Кильхер отмечает, что хотя Flamingo может описать детали снимка, она всё ещё не способна самостоятельно объяснить, в чём заключается юмор ситуации, без наводящих вопросов . Тем не менее, модель демонстрирует устойчивость к текстурным ошибкам (в отличие от классических классификаторов, она понимает, что «кот из травы» — это всё равно кот) .

🔒 Locked-Image Tuning (LiT): новый взгляд на контрастивное обучение 8:24

Google Research представила работу по методу Locked-Image Tuning (LiT), который комбинирует преимущества тонкой настройки (fine-tuning) и контрастивного предобучения.

Суть метода LiT:

Берётся уже предобученный визуальный энкодер (например, на ImageNet).
Веса визуального энкодера «замораживаются» (lock).
Обучается только текстовый энкодер, чтобы его эмбеддинги максимально соответствовали представлениям визуальной модели .

По словам Янника Кильхера, такой подход может показаться шагом назад по сравнению с CLIP (где обучаются обе части), однако исследователи Google обнаружили, что заморозка зрения позволяет лучше сохранять информацию, накопленную при обучении на огромных массивах данных .

🦖 Jurassic X и система MRKL: мост между нейросетями и логикой 10:25

AI21 Labs представили систему MRKL (произносится как «miracle» — чудо), что расшифровывается как Modular Reasoning Knowledge and Language. Первой реализацией этого подхода стала модель Jurassic X.

Основная идея MRKL:

Разделение труда: Языковая модель (LLM) отвечает только за понимание естественного языка и парсинг намерений пользователя.
Экспертные модули: Для вычислений и получения фактов используются внешние «эксперты» — калькуляторы, API погоды, конвертеры валют, Wikipedia или базы данных (например, база пассажиров «Титаника») .
Input Adapters: Специальные адаптеры анализируют запрос и решают, к какому внешнему инструменту обратиться .

Янник Кильхер считает этот подход перспективным для решения задач на многошаговые рассуждения, с которыми плохо справляются обычные LLM . Главным вызовом здесь является соединение «черных ящиков» (внешних API), которые не поддерживают обратное распространение ошибки, с нейронной сетью. Автор предполагает, что в будущем мы увидим гибридные решения на стыке промпт-инжиниринга и обучения с подкреплением .

🛠 Обзор инструментов и библиотек 15:10

Во второй части видео Янник Кильхер кратко перечисляет полезные релизы недели:

StyleGAN Human: Коллекция GAN-моделей, обученных генерировать людей в полный рост. Подходит для задач дизайна одежды и виртуальных примерочных .
GraphAug: Библиотека для аугментации данных в графовых нейронных сетях (GNN), совместимая с PyTorch Geometric .
TorchDistX: Репозиторий экспериментальных функций для распределённого обучения в PyTorch. Особо отмечены «фейковые тензоры» (Fake Tensors), которые позволяют строить граф вычислений для огромных моделей без загрузки самих данных в память .
VectorFlow: Библиотека от Netflix для работы с разреженными данными на одной машине .
PPO Implementation Details: Блог-пост, описывающий 37 тонкостей реализации алгоритма Proximal Policy Optimization. Янник Кильхер настоятельно не рекомендует реализовывать RL-алгоритмы с нуля самостоятельно из-за их крайней нестабильности .
JAX Ecosystem: DeepMind выпустила 4 новые библиотеки для JAX, включая MCTX (поиск по дереву Монте-Карло) и TF2JAX (конвертация моделей TensorFlow) .
CleanLab: Инструмент для автоматического поиска и исправления ошибок в разметке данных .
MUJGEN: Мультимодальный датасет (видео, аудио, текст, сегментация), созданный на базе игрового процесса опенсорсной игры .

В завершение Янник демонстрирует шуточный проект «This AI Does Not Exist», который генерирует описания несуществующих ИИ-стартапов. Среди прочего сервис предложил концепцию YOPO (You Only Poop Once) — нейросети для предсказания дефекации у собак по фотографии .