CM3 от Meta: как новая модель научилась понимать структуру интернета

Yannic Kilcher 14,3 тыс. 1 ч 24 мин 3 мин 17.02.2022
Главное

Мультимодальная революция в интернете: анализ CM3 от Meta AI 0:00

Исследователи из Meta AI представили CM3 (Causal Masked Multimodal Model) — новое семейство генеративных моделей, способных работать с неоднородными данными, включая текст, изображения, гиперссылки и HTML-структуру. В отличие от классических языковых моделей, которые «видят» лишь текстовый поток, CM3 использует структуру веб-страниц для глубокого понимания контекста. В интервью ведущему канала Яннику Кильхеру (Yannic Kilcher) один из авторов модели Агрим Агарвал (Agrim Agarwal) объяснил, что проект нацелен на создание универсального инструмента, способного выполнять любые задачи в режиме zero-shot (без дообучения), от генерации изображений по тексту до семантического связывания сущностей.

🌐 Преимущества HTML как источника данных 6:41

Основная идея разработчиков заключается в том, что HTML-код, созданный веб-программистами, содержит богатый семантический слой, который обычно отбрасывается при стандартном скрапинге.

По словам Агарвала, предыдущие подходы, такие как DALL-E, опирались на очень «чистые» пары «текст-изображение», что ограничивало возможности промптинга. Авторы CM3 выбрали путь «слабой» разметки:

Агарвал отмечает, что использование такой структуры — это способ эксплуатации человеческой изобретательности, уже вложенной в верстку миллионов сайтов. При этом модель сталкивается с проблемой избыточности: до 95% данных исходных документов отсеиваются в процессе очистки, чтобы сбалансировать вычислительную нагрузку и семантическую ценность.

🧠 Causal Masking: новый объектив моделирования 15:09

Центральным техническим нововведением CM3 стал метод, который авторы называют «причинным маскированием» (causal masking).

Традиционные языковые модели обучаются слева направо (autoregressive), что эффективно для генерации текста, но ограничивает их способность «смотреть вперед». Метод маскирования (как в BERT), наоборот, позволяет видеть весь контекст, но плохо подходит для последовательной генерации.

Агарвал уточняет, что размер маски критически важен: для дообучения эффективнее короткие маски, тогда как для zero-shot промптинга лучше работают редкие, но длинные маски.

🖼️ Работа с изображениями как с токенами 10:00

CM3 стирает границы между модальностями, преобразуя изображения в дискретные токены. Для этого используется предварительно обученная модель VQ-GAN (Vector Quantized GAN), которая кодирует изображение в серию из 256 токенов.

Агарвал признает, что текущая fidelity (точность) генерации изображений ограничена, так как VQ-GAN склонен размывать мелкие детали. Тем не менее, он считает подход «все как токен» наиболее перспективным для масштабирования, так как при увеличении вычислительных мощностей можно просто повышать разрешение через увеличение количества токенов на изображение.

📈 Масштабирование и будущие вызовы 19:09

Обсуждая результаты, Агарвал подчеркнул, что при масштабировании моделей от 1.3 млрд до 13 млрд параметров наблюдаются качественные, «ступенчатые» изменения в поведении.

Отвечая на вопрос Кильхера о рисках работы с огромными нефильтрованными данными, Агарвал отметил, что решение лежит не столько в фильтрации обучающей выборки, сколько в совершенствовании стратегий генеративного сэмплирования.

💬 Цитаты

«Мы не хотим иметь никакой строгой привязки в терминах модальностей, цель — использовать самую слабую связь, которая все еще даст нам возможность промптить нетривиальным образом.»

Агрим Агарвал 26:19

«Если вы делаете языковое моделирование, вы должны делать причинное маскированное моделирование.»

Агрим Агарвал 33:34
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Zero-shot
Способность модели выполнять задачу без предварительного дообучения на специфических примерах этой задачи.
VQ-GAN
Модель, использующая векторное квантование для сжатия изображений в дискретные токены, которые удобно обрабатывать языковым моделям.
Entity Disambiguation
Задача по определению правильного значения многозначного термина (например, «Александр» как личность vs Александр как город) через контекст.
Causal Masking
Метод обучения, при котором пропущенные фрагменты данных перемещаются в конец последовательности, позволяя модели учиться на контексте с обеих сторон.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект CM3 Meta AI Multimodal Models Causal Masking VQ-GAN