CM3 от Meta: как новая модель научилась понимать структуру интернета

Мультимодальная революция в интернете: анализ CM3 от Meta AI 0:00

Исследователи из Meta AI представили CM3 (Causal Masked Multimodal Model) — новое семейство генеративных моделей, способных работать с неоднородными данными, включая текст, изображения, гиперссылки и HTML-структуру. В отличие от классических языковых моделей, которые «видят» лишь текстовый поток, CM3 использует структуру веб-страниц для глубокого понимания контекста. В интервью ведущему канала Яннику Кильхеру (Yannic Kilcher) один из авторов модели Агрим Агарвал (Agrim Agarwal) объяснил, что проект нацелен на создание универсального инструмента, способного выполнять любые задачи в режиме zero-shot (без дообучения), от генерации изображений по тексту до семантического связывания сущностей.

🌐 Преимущества HTML как источника данных 6:41

Основная идея разработчиков заключается в том, что HTML-код, созданный веб-программистами, содержит богатый семантический слой, который обычно отбрасывается при стандартном скрапинге.

По словам Агарвала, предыдущие подходы, такие как DALL-E, опирались на очень «чистые» пары «текст-изображение», что ограничивало возможности промптинга. Авторы CM3 выбрали путь «слабой» разметки:

Они используют очищенный, но полноценный HTML-код, сохраняя вложенность тегов и структуру документа.
Это позволяет модели не просто «видеть» изображение, но и понимать его контекст, анализируя окружающий текст, заголовки и alt-теги.
Модель может использовать эти данные для решения сложных задач: например, для Entity Disambiguation (снятия неоднозначности сущностей) через предсказание гиперссылок.

Агарвал отмечает, что использование такой структуры — это способ эксплуатации человеческой изобретательности, уже вложенной в верстку миллионов сайтов. При этом модель сталкивается с проблемой избыточности: до 95% данных исходных документов отсеиваются в процессе очистки, чтобы сбалансировать вычислительную нагрузку и семантическую ценность.

🧠 Causal Masking: новый объектив моделирования 15:09

Центральным техническим нововведением CM3 стал метод, который авторы называют «причинным маскированием» (causal masking).

Традиционные языковые модели обучаются слева направо (autoregressive), что эффективно для генерации текста, но ограничивает их способность «смотреть вперед». Метод маскирования (как в BERT), наоборот, позволяет видеть весь контекст, но плохо подходит для последовательной генерации.

В CM3 при обучении случайный фрагмент (span) текста или изображения маскируется, а затем перемещается в конец последовательности.
Модель учится восстанавливать этот пропуск в конце, используя весь доступный контекст как слева, так и справа от «дыры».
По мнению Агарвала, это дает «лучшее из двух миров»: высокую производительность авторегрессионного декодера и мощь двунаправленного контекста.

Агарвал уточняет, что размер маски критически важен: для дообучения эффективнее короткие маски, тогда как для zero-shot промптинга лучше работают редкие, но длинные маски.

🖼️ Работа с изображениями как с токенами 10:00

CM3 стирает границы между модальностями, преобразуя изображения в дискретные токены. Для этого используется предварительно обученная модель VQ-GAN (Vector Quantized GAN), которая кодирует изображение в серию из 256 токенов.

Для языковой модели эти токены практически неотличимы от текстовых символов: она предсказывает их последовательно, как части слов.
Это позволяет выполнять задачи «инфиллинга» (заполнения пропусков) внутри изображения, а также условной генерации, когда модель сперва генерирует alt-текст, а затем само изображение.

Агарвал признает, что текущая fidelity (точность) генерации изображений ограничена, так как VQ-GAN склонен размывать мелкие детали. Тем не менее, он считает подход «все как токен» наиболее перспективным для масштабирования, так как при увеличении вычислительных мощностей можно просто повышать разрешение через увеличение количества токенов на изображение.

📈 Масштабирование и будущие вызовы 19:09

Обсуждая результаты, Агарвал подчеркнул, что при масштабировании моделей от 1.3 млрд до 13 млрд параметров наблюдаются качественные, «ступенчатые» изменения в поведении.

Например, модель меньшего размера не справлялась с задачами captioning (описания изображений), тогда как версия на 13 млрд параметров показала отличные результаты.
Авторы ожидают, что при достижении порога в 60–100 млрд параметров модель продемонстрирует полноценное «симметричное заземление» (grounding) — способность понимать глубокую связь между визуальными и текстовыми данными.

Отвечая на вопрос Кильхера о рисках работы с огромными нефильтрованными данными, Агарвал отметил, что решение лежит не столько в фильтрации обучающей выборки, сколько в совершенствовании стратегий генеративного сэмплирования.