# Как DeepMind Flamingo и Google LiT меняют мультимодальный ИИ

Источник: https://www.youtube.com/watch?v=smUHQndcmOY
Канал: Yannic Kilcher
Опубликовано: 13.05.2022

---

В новом выпуске ML News исследователь ИИ Янник Кильхер (Yannic Kilcher) анализирует главные события в мире машинного обучения, включая громкий релиз мультимодальной модели Flamingo от DeepMind. В центре внимания — архитектурные инновации, позволяющие объединять зрение и текст, методы эффективной настройки моделей через Locked-Image Tuning от Google, а также попытки стартапа AI21 Labs подружить нейросети с классическими алгоритмами в системе Jurassic X.

## 🦩 Flamingo: мультимодальный «GPT-3» от DeepMind
[[JUMP:0:30]]

DeepMind представила Flamingo — визуально-языковую модель (VLM), которая призвана стать для мультимодальных задач тем же, чем GPT-3 стала для обработки естественного языка [0:43]. Модель способна принимать на вход последовательности изображений и текста, выдавая текстовые ответы в разговорном режиме.

Ключевые особенности архитектуры Flamingo:

*   **Замороженные компоненты:** Модель строится на базе уже предобученных и «замороженных» (frozen) систем. Визуальный энкодер и языковая модель не меняются в процессе обучения [1:10].
*   **Адаптеры:** Обучение заключается исключительно в настройке промежуточных слоёв-адаптеров, которые связывают две разные модальности.
*   **Perceiver Resampler:** Изображение проходит через блок Perceiver, который преобразует визуальные данные в фиксированный набор скрытых (latent) запросов, облегчая работу языковой модели [6:47].
*   **Gated Cross-Attention:** Информация от визуального блока поступает в языковой трансформер через специальные слои перекрёстного внимания [7:26].

Янник Кильхер обращает внимание на стратегию продвижения DeepMind, которую он считает заимствованной у OpenAI: компания даёт доступ к модели узкой группе доверенных бета-тестеров, которые затем публикуют результаты в социальных сетях. По мнению автора, это создаёт иллюзию органического охвата, хотя на деле выдача результатов строго контролируется [2:27].

В качестве примера возможностей модели приводится разбор известной фотографии с Бараком Обамой, который в шутку наступил на весы за спиной человека. Янник Кильхер отмечает, что хотя Flamingo может описать детали снимка, она всё ещё не способна самостоятельно объяснить, в чём заключается юмор ситуации, без наводящих вопросов [3:44]. Тем не менее, модель демонстрирует устойчивость к текстурным ошибкам (в отличие от классических классификаторов, она понимает, что «кот из травы» — это всё равно кот) [4:24].

## 🔒 Locked-Image Tuning (LiT): новый взгляд на контрастивное обучение
[[JUMP:8:24]]

Google Research представила работу по методу Locked-Image Tuning (LiT), который комбинирует преимущества тонкой настройки (fine-tuning) и контрастивного предобучения.

Суть метода LiT:

1.  Берётся уже предобученный визуальный энкодер (например, на ImageNet).
2.  Веса визуального энкодера «замораживаются» (lock).
3.  Обучается только текстовый энкодер, чтобы его эмбеддинги максимально соответствовали представлениям визуальной модели [9:23].

По словам Янника Кильхера, такой подход может показаться шагом назад по сравнению с CLIP (где обучаются обе части), однако исследователи Google обнаружили, что заморозка зрения позволяет лучше сохранять информацию, накопленную при обучении на огромных массивах данных [9:36].

## 🦖 Jurassic X и система MRKL: мост между нейросетями и логикой
[[JUMP:10:25]]

AI21 Labs представили систему MRKL (произносится как «miracle» — чудо), что расшифровывается как Modular Reasoning Knowledge and Language. Первой реализацией этого подхода стала модель Jurassic X.

Основная идея MRKL:

*   **Разделение труда:** Языковая модель (LLM) отвечает только за понимание естественного языка и парсинг намерений пользователя.
*   **Экспертные модули:** Для вычислений и получения фактов используются внешние «эксперты» — калькуляторы, API погоды, конвертеры валют, Wikipedia или базы данных (например, база пассажиров «Титаника») [11:06].
*   **Input Adapters:** Специальные адаптеры анализируют запрос и решают, к какому внешнему инструменту обратиться [13:27].

Янник Кильхер считает этот подход перспективным для решения задач на многошаговые рассуждения, с которыми плохо справляются обычные LLM [12:24]. Главным вызовом здесь является соединение «черных ящиков» (внешних API), которые не поддерживают обратное распространение ошибки, с нейронной сетью. Автор предполагает, что в будущем мы увидим гибридные решения на стыке промпт-инжиниринга и обучения с подкреплением [12:50].

## 🛠 Обзор инструментов и библиотек
[[JUMP:15:10]]

Во второй части видео Янник Кильхер кратко перечисляет полезные релизы недели:

*   **StyleGAN Human:** Коллекция GAN-моделей, обученных генерировать людей в полный рост. Подходит для задач дизайна одежды и виртуальных примерочных [15:10].
*   **GraphAug:** Библиотека для аугментации данных в графовых нейронных сетях (GNN), совместимая с PyTorch Geometric [16:02].
*   **TorchDistX:** Репозиторий экспериментальных функций для распределённого обучения в PyTorch. Особо отмечены «фейковые тензоры» (Fake Tensors), которые позволяют строить граф вычислений для огромных моделей без загрузки самих данных в память [16:41].
*   **VectorFlow:** Библиотека от Netflix для работы с разреженными данными на одной машине [17:21].
*   **PPO Implementation Details:** Блог-пост, описывающий 37 тонкостей реализации алгоритма Proximal Policy Optimization. Янник Кильхер настоятельно не рекомендует реализовывать RL-алгоритмы с нуля самостоятельно из-за их крайней нестабильности [18:00].
*   **JAX Ecosystem:** DeepMind выпустила 4 новые библиотеки для JAX, включая MCTX (поиск по дереву Монте-Карло) и TF2JAX (конвертация моделей TensorFlow) [18:26].
*   **CleanLab:** Инструмент для автоматического поиска и исправления ошибок в разметке данных [19:10].
*   **MUJGEN:** Мультимодальный датасет (видео, аудио, текст, сегментация), созданный на базе игрового процесса опенсорсной игры [20:13].

В завершение Янник демонстрирует шуточный проект «This AI Does Not Exist», который генерирует описания несуществующих ИИ-стартапов. Среди прочего сервис предложил концепцию YOPO (You Only Poop Once) — нейросети для предсказания дефекации у собак по фотографии [23:28].