Как DeepMind Flamingo и Google LiT меняют мультимодальный ИИ

Yannic Kilcher 28,9 тыс. 24 мин 4 мин 13.05.2022
Главное

В новом выпуске ML News исследователь ИИ Янник Кильхер (Yannic Kilcher) анализирует главные события в мире машинного обучения, включая громкий релиз мультимодальной модели Flamingo от DeepMind. В центре внимания — архитектурные инновации, позволяющие объединять зрение и текст, методы эффективной настройки моделей через Locked-Image Tuning от Google, а также попытки стартапа AI21 Labs подружить нейросети с классическими алгоритмами в системе Jurassic X.

🦩 Flamingo: мультимодальный «GPT-3» от DeepMind 0:30

DeepMind представила Flamingo — визуально-языковую модель (VLM), которая призвана стать для мультимодальных задач тем же, чем GPT-3 стала для обработки естественного языка . Модель способна принимать на вход последовательности изображений и текста, выдавая текстовые ответы в разговорном режиме.

Ключевые особенности архитектуры Flamingo:

Янник Кильхер обращает внимание на стратегию продвижения DeepMind, которую он считает заимствованной у OpenAI: компания даёт доступ к модели узкой группе доверенных бета-тестеров, которые затем публикуют результаты в социальных сетях. По мнению автора, это создаёт иллюзию органического охвата, хотя на деле выдача результатов строго контролируется .

В качестве примера возможностей модели приводится разбор известной фотографии с Бараком Обамой, который в шутку наступил на весы за спиной человека. Янник Кильхер отмечает, что хотя Flamingo может описать детали снимка, она всё ещё не способна самостоятельно объяснить, в чём заключается юмор ситуации, без наводящих вопросов . Тем не менее, модель демонстрирует устойчивость к текстурным ошибкам (в отличие от классических классификаторов, она понимает, что «кот из травы» — это всё равно кот) .

🔒 Locked-Image Tuning (LiT): новый взгляд на контрастивное обучение 8:24

Google Research представила работу по методу Locked-Image Tuning (LiT), который комбинирует преимущества тонкой настройки (fine-tuning) и контрастивного предобучения.

Суть метода LiT:

  1. Берётся уже предобученный визуальный энкодер (например, на ImageNet).
  2. Веса визуального энкодера «замораживаются» (lock).
  3. Обучается только текстовый энкодер, чтобы его эмбеддинги максимально соответствовали представлениям визуальной модели .

По словам Янника Кильхера, такой подход может показаться шагом назад по сравнению с CLIP (где обучаются обе части), однако исследователи Google обнаружили, что заморозка зрения позволяет лучше сохранять информацию, накопленную при обучении на огромных массивах данных .

🦖 Jurassic X и система MRKL: мост между нейросетями и логикой 10:25

AI21 Labs представили систему MRKL (произносится как «miracle» — чудо), что расшифровывается как Modular Reasoning Knowledge and Language. Первой реализацией этого подхода стала модель Jurassic X.

Основная идея MRKL:

Янник Кильхер считает этот подход перспективным для решения задач на многошаговые рассуждения, с которыми плохо справляются обычные LLM . Главным вызовом здесь является соединение «черных ящиков» (внешних API), которые не поддерживают обратное распространение ошибки, с нейронной сетью. Автор предполагает, что в будущем мы увидим гибридные решения на стыке промпт-инжиниринга и обучения с подкреплением .

🛠 Обзор инструментов и библиотек 15:10

Во второй части видео Янник Кильхер кратко перечисляет полезные релизы недели:

В завершение Янник демонстрирует шуточный проект «This AI Does Not Exist», который генерирует описания несуществующих ИИ-стартапов. Среди прочего сервис предложил концепцию YOPO (You Only Poop Once) — нейросети для предсказания дефекации у собак по фотографии .

💬 Цитаты

«Flamingo — это по сути то же самое, чем была GPT-3 для языка, но теперь для изображений и текста.»

Янник Кильхер 0:30

«Не пытайтесь реализовывать RL-алгоритмы самостоятельно. Это боль.»

Янник Кильхер 18:00
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Frozen model
Модель, веса которой не обновляются в процессе обучения новой системы.
Perceiver
Архитектура нейросети, способная обрабатывать входные данные разных модальностей через фиксированное количество скрытых каналов.
Contrastive training
Метод обучения, при котором модель учится сближать эмбеддинги похожих объектов и отдалять разные.
Backprop
Метод обратного распространения ошибки, основной алгоритм обучения нейросетей.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DeepMind Flamingo Locked-Image Tuning Jurassic X MRKL