Как ИИ учится видеть: эволюция и парадоксы мультимодальных моделей

Современные нейросети способны безошибочно определять стили живописи, но пасуют перед простейшими пространственными задачами, едва преодолевая порог случайного угадывания. Добавление визуальной модальности дарует языковым моделям уникальную способность «вращать фигуры в уме», кардинально меняя принципы их взаимодействия с миром. Эволюция мультимодальных архитектур — от слияния замороженных блоков до генеративного предобучения — открывает новую эру, где ИИ учится не просто обрабатывать данные, а по-настоящему видеть.

👁️ Эволюция мультимодальных систем и Vision Transformers 1:03

Современный ландшафт искусственного интеллекта переживает фундаментальную трансформацию благодаря развитию мультимодальных моделей (Vision Language Models, VLM). В основе этого прогресса лежит стремление систем не просто распознавать отдельные объекты, но и глубоко понимать визуальный мир, рассуждая о нём подобно человеку. Как отмечает Уилл Хардман (Will Hardman), основатель аналитической компании Veratai, интеграция разнородных модальностей — текста и изображений — открывает потенциал для следующего «трансформационного скачка» в способностях ИИ.

Исторически развитие VLM прошло путь от ранних специализированных архитектур до современных мощных систем уровня Llama 3V и InternVL. Ранее в разговоре упоминались модели CLIP и Flamingo, заложившие основы контрастивного предобучения и использования механизмов кросс-внимания для сжатия визуальных токенов. Эти архитектурные решения стали критически важными вехами, определившими текущий вектор исследований.

Архитектура и принцип работы Vision Transformers (ViT) 13:44

Фундаментальным строительным блоком современных VLM является архитектура Vision Transformer (ViT), представленная Google в 2020 году в работе «An Image is Worth 16x16 Words». До появления ViT доминирующей парадигмой были сверточные нейронные сети (CNN), которые иерархически обрабатывали пиксели с помощью фильтров. ViT предложил принципиально иной подход, перенеся рецепт успеха языковых трансформеров в область компьютерного зрения.

Процесс обработки изображения в ViT состоит из нескольких этапов:

Разбиение на патчи: Исходное изображение делится на сетку непересекающихся фрагментов (например, 16x16 пикселей).
Линеаризация и эмбеддинг: Каждый патч преобразуется в линейный вектор, формируя последовательность «визуальных токенов».
Трансформерный энкодер: Полученная последовательность подается в энкодер, где используется механизм полномасштабного внимания (all-to-all attention). Это позволяет каждому участку изображения взаимодействовать с любым другим, в отличие от строго упорядоченного «посмотрела-назад» паттерна в языковых моделях.

Важной особенностью ViT является отсутствие фиксированного «словаря» токенов, характерного для текста. Вместо дискретизации, визуальные токены существуют в непрерывном пространстве (континууме). Преобразование патча в вектор является обучаемой операцией, что позволяет модели эффективно использовать механизм внимания даже без квантования данных в классический кодовый словарь.

Масштабирование и технические нюансы 15:57

Ключевым выводом исследователей стало то, что при достаточном масштабировании параметров трансформерная архитектура превосходит классические CNN. Хардман поясняет, что в номенклатуре моделей (например, ViT-H/16) буква «H» (Huge) указывает на размерность — около 600 миллионов параметров, а число «16» обозначает размер патча.

Ранее стандартным подходом было жесткое ограничение разрешения изображения (например, 224x224 пикселя) для обеспечения фиксированного количества токенов. Это приводило к необходимости принудительного изменения размера и потенциальным искажениям исходного контента. Однако современные модели постепенно отходят от этих ограничений, используя более совершенные методы сегментации изображений для сохранения глобального контекста.

🧩 Эра выравнивания модальностей: от контрастивного CLIP к «моменту GPT-3» в лице Flamingo 25:09

Контрастивное предобучение: как модель CLIP связала текст и зрение 25:09

В поисках эффективных способов интеграции мультимодальных данных исследователи долгое время сталкивались с непреодолимым барьером между зрением и текстом. Архитектурным прорывом в этой области стала модель CLIP от OpenAI, показавшая канонический способ выравнивания их векторных представлений. Специалист из Veratai Уилл Хардман (Will Hardman) отмечает, что концепция CLIP изящна: система берет энкодер зрения (например, Vision Transformer) и энкодер текста, обучая их совместно на гигантском массиве пар «картинка-описание», собранных прямиком из интернета.

Оба энкодера генерируют эмбеддинги в едином пространстве так, чтобы у реального изображения и его подписи было максимальное косинусное сходство. Для случайных пар оно, напротив, минимизируется. Технически это реализуется через линейную проекцию для выравнивания размерностей и функцию контрастивной потери (contrastive loss). В батче из N пар содержится N истинных соответствий и N² - N ложных. Алгоритм жестко штрафует расхождения для истинных пар и сходство для ложных, буквально стягивая правильные векторы вместе и расталкивая ошибочные. Огромный плюс CLIP в том, что предобученный визуальный энкодер можно извлечь для даунстрим-задач — он уже «сближен» с языковым пространством, выполняя для исследователей до двух третей работы по выравниванию модальностей.

Преодоление ограничений ImageNet и феномен шума в веб-данных 28:44

До появления CLIP компьютерное зрение развивалось в жестких рамках фиксированных датасетов вроде ImageNet, где модели соревновались на ограниченном наборе из 1000 классов. Для реальной практики — например, подбора иллюстраций к текстам в компании Wearck — это совершенно не работало, так как нишевые объекты малого бизнеса в этой классификации попросту отсутствовали. CLIP отказался от искусственных ограничений ради понимания «всего, что угодно» на основе веб-масштабных данных (web-scale data).

Однако оборотной стороной стал колоссальный уровень шума в интернет-подписях, где пользователи часто используют шутки, метафоры или цитаты. Это приводило к специфическим артефактам: при поиске фото для пиццерии по слову «пицца» в топ могла выйти вывеска магазина, где это слово просто написано текстом. Кроме того, в CLIP полностью отсутствовал эстетический сигнал — модель оценивала содержание, но не качество картинки. Данный опыт во многом предопределил современную одержимость инженеров жесткой фильтрацией данных ради исключения шума при обучении современных больших визуально-языковых моделей.

Модель Flamingo: внедрение кросс-внимания и модуль Perceiver Resampler 35:23

В 2022 году вышла модель Flamingo от DeepMind, ставшая настоящим «моментом GPT-3» для визуально-языковых архитектур. В ней закрепился базовый паттерн: раздельное кодирование текста и картинок с последующей передачей данных в замороженную языковую модель-бэкбон Chinchilla. Чтобы связать их, авторы внедрили слои кросс-внимания (cross-attention) между каждыми четырьмя блоками Chinchilla.

Главными вызовами стали переменное количество визуальных токенов от разных картинок и огромная вычислительная нагрузка — классическое внимание «все-ко-всем» растет квадратично, являясь главным проклятием трансформеров. Команда DeepMind решила это с помощью модуля Perceiver Resampler. Вместо полной матрицы внимания модуль использует фиксированное число обучаемых скрытых запросов (latent queries) — ровно 64 вектора для Flamingo. Размерность вычислений сжалась до масштаба «длина последовательности × 64», гарантируя на выходе фиксированный шаг (например, 64 × 768), что радикально упростило работу кросс-внимания ниже по цепочке.

По тестам Hugging Face, кросс-внимание требует обучения около 25% параметров 7B-модели (против всего 10% у простых проекций), но это все равно намного экономичнее полного переобучения сети. Модель обучалась на предсказании следующего токена с использованием чередующихся (interleaved) данных — HTML-документов, где текст и картинки идут в естественном DOM-порядке. Это обеспечило Flamingo отличные few-shot результаты в задачах VQA, OCR и описания изображений. И хотя DeepMind не открыла модель публично, этот шаг подготовил индустрию к переходу на инструктивный тюнинг, реализованный в последующих архитектурах вроде LLaVA.

🚀 Авторегрессионный подход и архитектура LLaVA 50:32

В отличие от моделей типа Flamingo, которые опираются на специализированные слои кросс-внимания (cross-attention), архитектура LLaVA предлагает существенно более простой подход — авторегрессионную архитектуру. Идея заключается в том, чтобы взять визуальные токены, обработанные с помощью Vision Transformer (желательно уже предобученного, как в CLIP, так как он изначально выровнен с языковыми моделями), и подать их непосредственно в декодер.

В этой схеме не требуется кросс-внимание: достаточно использовать простую проекционную матрицу для интеграции визуальных токенов в текстовый поток. В оригинальной архитектуре LLaVA визуальные токены просто добавлялись в начало последовательности перед текстовыми токенами, после чего модель обучалась воспринимать их как единую цепочку.

Несмотря на элегантность, у этого метода есть свои нюансы. Во-первых, при генерации длинной последовательности визуальных токенов, каждый из них разворачивается в декодере, становясь частью механизма внимания. Во-вторых, использование линейного слоя в качестве проекционной матрицы значительно сокращает количество параметров по сравнению с тяжеловесными механизмами кросс-внимания. Это вынуждает модель обучаться выравниванию визуальных и текстовых данных с использованием меньшего числа параметров, что иногда требует дообучения (fine-tuning) самой языковой модели, а это, в свою очередь, может привести к проблеме «катастрофического забывания» (catastrophic forgetting) навыков, полученных при исходном обучении.

Тем не менее, результаты впечатляют: проекция визуальных данных напрямую в эмбеддинг-пространство языка позволяет модели воспринимать изображения «как текст». Пространство возможных входных данных оказывается гораздо шире стандартного словаря из 100 000 токенов, и модель успешно адаптируется к такому способу подачи информации без необходимости полной перестройки механизма внимания.

🧠 Синтетическая генерация инструкций с помощью GPT-4 57:27

Одним из главных вкладов команды LLaVA в развитие индустрии стала методика генерации синтетических данных для обучения инструкциям (instruction tuning). За основу был взят набор данных COCO (Common Objects in Context), содержащий около 200 000 изображений с текстовыми описаниями и геометрическими координатами (bounding boxes) объектов.

Разработчики применили интеллектуальный подход: они использовали мощную языковую модель GPT-4 (без визуальной составляющей) для создания диалогов. Благодаря тщательно подобранным шаблонам few-shot промптинга, GPT-4 генерировала вопросы и ответы, имитируя поведение ассистента, способного «видеть» изображение. Например, имея данные о местоположении велосипеда рядом с автомобилем, модель могла составить сложный вопрос: «Что находится слева от машины?» или «Какие трудности могут испытывать люди, загружающие багаж в этот автомобиль?».

Процесс обучения LLaVA проходил в две стадии:

Предобучение: Использовалось 600 000 пар «изображение-описание» для выравнивания визуальных и языковых пространств.
Тонкая настройка: Применялся набор из 150 000 сложных примеров (мультиходовые диалоги, вопросы по регионам изображения, задачи на логику), сгенерированных с помощью описанного выше процесса.

Такой метод позволил LLaVA превзойти другие модели того времени в задачах на логический вывод и качество диалога. Эта «рецептура» оказалась настолько эффективной, что спустя полтора года она продолжает использоваться в более новых моделях, таких как LLaVA-OneVision.

⚖️ Бенчмарк MMMU и оценка мультимодальной логики 1:09:35

Для оценки способностей моделей в работе с визуальными данными используется бенчмарк MMMU (Massive Multidiscipline Multimodal Understanding), который можно считать «мультимодальной версией» теста MMLU. Этот тест оценивает три ключевых навыка: восприятие (perception), накопленные знания (knowledge) и логическое рассуждение (reasoning).

Бенчмарк включает около 11 000 вопросов, охватывающих 30 дисциплин: от истории и медицины до электроники и теории музыки. В качестве примера: модели могут предлагаться четыре музыкальных партитуры, и её задача — выбрать ту, в которой допущена ошибка в гармонических интервалах.

Когда MMMU был представлен в ноябре 2023 года, GPT-4V показала результат около 55%, тогда как лучшая open-source модель на базе LLaVA — около 34% (при 25% случайного угадывания). С тех пор лидеры рейтинга значительно продвинулись: например, модель o1 достигла отметки в 78%. Примечательно, что когда исследователи тестировали исключительно текстовую версию GPT-4 (подавая ей только описания изображений), она набирала лишь 34%, что подчеркивает критическую важность именно мультимодального анализа и способности «понимать» визуальные токены для решения задач такого уровня.

🔬 Эволюция обучения и обработки изображений в современных VLM

Трехстадийный процесс предобучения Qwen-VL 1:16:14

Разработчики из Alibaba при создании модели Qwen-VL отошли от классических подходов, разделив процесс обучения на три четко выраженных этапа, что позволило значительно повысить качество модели. Этот метод стал эталонным для многих последующих архитектур.

Первая фаза сфокусирована на тренировке Vision Transformer (ViT) и коннектора (проекционного слоя) при «замороженном» языковом бэкбоне. Изображения на этом этапе имеют стандартное разрешение $224 \times 224$ пикселей, что обеспечивает эффективную обработку больших объемов данных без избыточной нагрузки на ресурсы.

Вторая фаза вводит многозадачность (multitask pre-training), где происходит «разморозка» языковой модели. Основные изменения:

Разрешение входных изображений увеличивается до $448 \times 448$, а сами изображения разбиваются на четыре плитки (tiles), что существенно повышает количество подаваемых визуальных токенов.
В тренировочный набор интегрируются синтетические OCR-данные и наборы для визуального обоснования (visual grounding), содержащие размеченные области объектов.
Добавляются крупные датасеты для ответов на визуальные вопросы (VQA), что обеспечивает разнообразие задач.

Третья фаза — это контролируемая донастройка (supervised fine-tuning), требующая высококачественных данных, часто создаваемых с помощью более мощных моделей. Такая ступенчатая стратегия — от низкого качества и больших объемов к высокому качеству и узким задачам — позволяет добиться «сплоченности» латентных пространств текста и изображений, не нарушая при этом уже заложенные языковые способности модели.

Технология динамического высокого разрешения в InternVL 1:36:50

Команда OpenGVLab, работающая на базе Шанхайского университета, предложила инновационное решение проблемы фиксированного разрешения в моделях серии InternVL. Ранее в обсуждении они затрагивали эволюцию мультимодальных моделей и архитектурные различия между кросс-вниманием и авторегрессионным подходом.

Основной вызов для визуальных моделей — это произвольные соотношения сторон и разрешения исходных картинок. Технология «динамического высокого разрешения» (Dynamic High Resolution) решает это через сегментацию:

Нарезка на плитки: Изображение разбивается на фрагменты фиксированного размера ($448 \times 448$), количество которых подбирается в зависимости от исходного разрешения и пропорций (конфигурации $4 \times 4$, $4 \times 2$ или $1 \times 2$).
Глобальный контекст: К набору высокодетализированных плиток добавляется уменьшенный эскиз (thumbnail) всего изображения, что гарантирует сохранение глобальной структуры.
Оптимизация токенов: Поскольку такой подход генерирует большое количество визуальных токенов, применяется стратегия «pixel shuffle». Она позволяет сжимать тензоры, перераспределяя информацию между измерениями, что снижает нагрузку на декодер без потери качества визуального представления.

Этот метод позволяет обрабатывать изображения практически в их естественном разрешении, просто адаптируя количество генерируемых токенов. Для авторегрессионных архитектур это преимущество особенно важно, так как они не требуют жестко фиксированного количества входов, как это было в ранних моделях с использованием «перцептивных сэмплеров» (perceiver samplers). Данный подход сегодня активно внедряется в топовые мультимодальные системы, включая Qwen-2-VL.

📈 Стратегия прогрессивного масштабирования в InternVL 2.5 1:44:02

Одной из наиболее эффективных инноваций в последней версии модели InternVL 2.5 стала стратегия «прогрессивного масштабирования» (progressive scaling strategy). Как отмечает Уилл Хардман, этот подход позволяет существенно оптимизировать процесс обучения, радикально снижая требования к вычислительным ресурсам и объему данных.

Суть метода заключается в поэтапном наращивании сложности языкового бэкенда во время предобучения. Разработчики InternVL создали несколько классов моделей: от компактных 7-миллиардных версий до крупных 78-миллиардных конфигураций. Вместо того чтобы пытаться обучить огромную мультимодальную систему с нуля, они следуют логике последовательного «апгрейда»:

Начальный этап: Визуальный энкодер (Vision Transformer) сначала выравнивается с небольшой языковой моделью. На этом этапе модель быстро достигает сходимости, так как количество свободных параметров ограничено, что упрощает поиск оптимальных решений в процессе градиентного спуска.
Промежуточные этапы: После того как визуальный энкодер «освоил» основы взаимодействия с данным классом декодера, меньшую модель заменяют на более мощную, и предобучение продолжается.
Финальный этап: Процесс повторяется до тех пор, пока система не переходит к использованию самой крупной языковой модели в линейке.

Такой иерархический подход оказался гораздо более эффективным, чем попытка синхронного обучения всех компонентов «в лоб» при больших масштабах. Хардман подчеркивает, что это не просто экономия вычислительных мощностей; это колоссальная экономия данных. Для достижения аналогичного уровня сложности модели InternVL 2.5 потребовалось около 120 миллиардов токенов, тогда как её ближайшему конкуренту Qwen-2VL для сопоставимых показателей пришлось обработать 1,4 триллиона токенов.

Интуиция эффективности обучения 1:49:28

Почему стратегия прогрессивного масштабирования работает настолько лучше классического обучения? Хардман проводит аналогию с исследованиями малых языковых моделей (наподобие TinyLM), где наблюдается четкая последовательность усвоения навыков: от базовых структур языка до сложных «микро-рассуждений».

Когда модель обладает огромным количеством свободных параметров, градиентный спуск может блуждать в поиске оптимальных «бассейнов» функциональности гораздо дольше. Начиная с малого:

Система быстро находит стабильные базовые представления, не тратя избыточные ресурсы на поиск в огромном пространстве возможностей.
При последующей замене языкового бэкенда на более крупный, модель уже «стартует» из хорошей точки поиска, что позволяет ей сфокусироваться на усвоении более сложных когнитивных навыков, а не на базовом выравнивании модальностей.

Этот успех InternVL 2.5 на бенчмарке MMMU, где модель успешно конкурирует с закрытыми флагманами вроде GPT-4o и Gemini 1.5 Pro, подтверждает: разумное ограничение сложности на ранних этапах обучения является ключом к созданию по-настоящему эффективных мультимодальных ассистентов. Ранее в разговоре они также упоминали архитектурные нюансы, такие как динамическое высокое разрешение и кросс-внимание, но именно комбинация этих стратегий стала «победной формулой» для текущего поколения открытых моделей.

🖼️ Сравнение архитектур и потенциал мультимодального обучения 2:05:43

В современных исследованиях систем искусственного интеллекта всё более остро встает вопрос поиска наиболее эффективной архитектуры для объединения текстовых и визуальных данных. Ранее в разговоре уже затрагивались темы эволюции мультимодальных моделей и ключевые особенности архитектуры Vision Transformers, которые стали фундаментом для текущих разработок.

Архитектурное противостояние: Декодеры против кросс-внимания 2:05:57

Систематический анализ архитектурных решений стал центральной темой недавних исследований, в частности серии работ Hugging Face, посвященных модели IDEFICS (от англ. What matters when building vision language models). Исследователи стремились выяснить, как различные способы соединения визуального энкодера и языкового декодера влияют на итоговую производительность при идентичных условиях обучения.

Основные выводы этого сравнения оказались следующими:

При замороженной языковой модели архитектура с кросс-вниманием (cross-attention) показывает лучшие результаты, что объясняется увеличением количества параметров для настройки.
Если же обновлять параметры языкового бэкбона, авторегрессионные (декодерные) архитектуры демонстрируют превосходство, особенно при использовании методов эффективной настройки, таких как LoRA (Low-Rank Adapters), которые помогают избежать нестабильности при обучении.
При фиксированном бюджете параметров увеличение размера языковой модели дает значительно больший прирост производительности, чем масштабирование визуального энкодера.

Аналогичное сравнение было проведено специалистами Nvidia в рамках разработки модели NVLM. Команда протестировала три варианта: чисто декодерный, с кросс-вниманием и гибридный. Выяснилось, что декодерная архитектура обеспечивает лучшие показатели в OCR и мультимодальном логическом выводе, однако архитектура с кросс-вниманием значительно эффективнее в процессе тренировки за счет снижения вычислительных затрат на обработку длинных последовательностей визуальных токенов.

Гибридные подходы и «эффект обучения» через изображения 2:12:20

Интересным компромиссом стал гибридный подход, предложенный Nvidia. В этой схеме модель сохраняет преимущества декодера (совместное расположение текстовых и визуальных токенов) для базового рассуждения, при этом используя кросс-внимание для «подтягивания» высокоразрешающих фрагментов изображения только тогда, когда это необходимо. Хотя чисто декодерные модели всё ещё лидируют в OCR, гибридные варианты неожиданно показали лучшие результаты на валидационном наборе бенчмарка MMMU.

Другим важным наблюдением стало влияние мультимодального обучения на «чисто текстовые» способности модели. Уилл Хардман (Will Hardman) отмечает, что при внедрении визуальной модальности многие модели демонстрировали деградацию в текстовых бенчмарках, если в процессе обучения не сохранялась строгая пропорция чисто текстовых данных. Однако в экспериментах с NVLM, благодаря тщательно подобранному набору данных для supervised fine-tuning, удалось достичь обратного эффекта.

Более того, добавление математических и геометрических задач в формате изображений привело к улучшению навыков численного и логического рассуждения даже в сугубо текстовых тестах. Этот феномен можно сравнить с метафорой «вращения фигур»: добавление зрения дало языковой модели некую форму пространственного мышления (или «shape-rotator capability»), которой ей не хватало при обработке исключительно текстовых токенов. Это подтверждает гипотезу о том, что интеграция различных модальностей — это не просто способ расширить функционал ИИ, но и реальный инструмент повышения качества его «интеллектуального» ядра.

👁️ Когда ИИ не видит очевидного: бенчмарк Blink и границы перцепции 2:30:59

От контекста к пикселям: эволюция визуальных тестов 2:34:57

После подробного разбора подходов к раннему и позднему слиянию модальностей, а также механизмов кросс-внимания, Уилл Хардман (Will Hardman) предложил углубиться в тему тестирования зрительных способностей современных систем. В индустрии обучения мультимодальных моделей тренировочные сплиты популярных бенчмарков всё чаще становятся неотъемлемой частью датасетов для финальной тонкой настройки (fine-tuning). Одним из классических столпов этой сферы долгое время оставался бенчмарк VQA (Visual Question Answering). Это внушительный массив, включающий около 50 000 изображений, заимствованных преимущественно из базы COCO (Common Objects in Context). Вопросы к ним, составленные краудсорсерами Amazon Mechanical Turk, носят открытый характер и требуют синергии языковой логики, распознавания образов и базового здравого смысла. Всего база насчитывает около миллиона вопросов. В качестве примера Хардман приводит курьезный снимок женщины с бананами вместо усов: система должна не просто зафиксировать желтый цвет по центру экрана, отвечая на вопрос о цвете глаз, но и сопоставить форму бананов с геометрией лица, чтобы понять, из чего сделаны «усы».

Параллельно развивается специализированная модификация — DocVQA. Этот бенчмарк содержит порядка 50 000 вопросов, построенных вокруг 12 000 изображений реальных индустриальных документов: PDF-сканов, графиков, инвойсов, таблиц и рукописных заметок. Основная задача моделей здесь заключается в том, чтобы изолировать и извлечь точные текстовые фрагменты, способные ответить на конкретный запрос, например: «Каков итоговый номер данного инвойса?». Для инженеров, желающих обучить мультимодального ассистента, команда Hugging Face подготовила своеобразный «чит-код» — сборку The Cauldron («Котёл»). В ней объединены 50 подобных датасетов тонкой настройки, что позволяет значительно упростить процесс выравнивания текстовой и визуальной модальностей за счет правильного структурирования промптов и аугментации картинок.

Феномен Blink: 14 задач, которые человек щелкает как орехи 2:40:00

Принципиально иной взгляд на оценку компьютерного зрения предложил бенчмарк Blink, выпущенный в июле текущего года объединенной академической командой под эгидой института Allen AI. Blink содержит чуть менее 4000 вопросов с множественным выбором ответа, охватывающих 14 базовых перцептивных (зрительных) задач. Создатели бенчмарка заложили в его основу простую идею: человек способен решить любую из этих задач буквально в мгновение ока (в один «миг» — blink), тогда как для современных Vision Language Models (VLM) они представляют непреодолимую стену. В то время как средний показатель человека в этих тестах держится на уровне 90–97%, случайное угадывание из-за специфики вариантов дает чуть более трети правильных ответов.

Уилл Хардман подчеркивает ключевое отличие Blink от академических тестов вроде MMMU, детально описанных ранее. Большинство вопросов в MMMU на самом деле проверяют не перцепцию, а высокоуровневые рассуждения, фактически сводясь к задаче плотного описания изображений (dense captioning). Эксперименты авторов MMMU показали, что если полностью удалить картинку, заменив её богатым текстовым описанием от модели LLaVA, стандартная большая языковая модель всё равно успешно находит правильный ответ, далеко обходя порог случайного угадывание. Blink же полностью исключает текстовую лазейку, тестируя именно «чистое» визуальное восприятие ИИ, в котором до сих пор наблюдается критический дефицит.

Успехи в анализе искусства и катастрофа на тестах IQ 2:44:01

Детальный разбор категорий бенчмарка Blink демонстрирует поразительную полярность в возможностях нейросетей. К числу наиболее успешно решаемых задач относится тест на художественный стиль (Art Style). Модели демонстрируют три картины (к примеру, один набросок карандашом и два классических полотна) и просят сопоставить их по визуальному стилю. На момент фиксации данных наилучший результат показала модель GPT-4o, набравшая 83% при 95% у человека (при пороге угадывания в 50%). Аналогичный высокий результат зафиксирован в категории визуального сходства (Visual Similarity), где моделям необходимо определить, какие фотографии пейзажей, например водопадов, сделаны с одного ракурса. Модель GPT-4 Turbo набрала здесь 80%, приближаясь к человеческим 97%.

Однако в категориях, требующих пространственного мышления, ИИ терпит сокрушительное поражение. Худшие результаты зафиксированы в блоке визуальных IQ-тестов. Моделям предлагается классическая задача на поиск закономерностей: дана последовательность геометрических фигур и четыре варианта для её продолжения. Человек находит верный ответ в 80% случаев. Лучший результат среди ИИ-систем, принадлежащий GPT-4 Turbo, составил всего 32,67% — результат, который едва оторвался от порога слепого угадывания в 25%.

Перцептивный каркас: почему нейросети не умеют считать квадраты 2:47:20

Этот провал заставляет Уилла Хардмана провести прямую параллель со знаменитым абстрактным бенчмарком ARC (Abstraction and Reasoning Corpus) Франсуа Шолле. Ведущий подкрепляет эту мысль личным опытом: при попытке протестировать модели на скриншотах задач ARC выяснилось, что современные VLMs фатально не справляются даже с базовым описанием сетки — они путаются в размерностях матриц и не способны точно посчитать количество квадратов на экране. При этом те же модели превосходно справляются с OCR-распознаванием текстов и чтением структурированных таблиц. По мнению Хардмана, главная причина кроется в отсутствии у нейросетей «перцептивного каркаса» — врожденных зрительных установок (perceptual priors). Человеческий мозг мгновенно сужает пространство поиска за счет готовых шаблонов восприятия форм, симметрии и вращений. Нейросети же, лишенные таких априорных механизмов, вынуждены полагаться на ресурсоемкий полный перебор программных логик (program search), пытаясь «прогрузить» геометрию через текстовые токены.

Проблема усугубляется и неочевидными факторами, такими как человеческая модерация моделей (RLHF). Ведущий отметил, что из-за заложенных барьеров вежливости современные системы (например, GPT-4o или Claude) наотрез отказываются давать жесткую эстетическую оценку изображениям или лицам, уходя в политкорректные рассуждения о том, что «красота субъективна». Чтобы заставить модель работать как точный перцептивный судья в практических задачах, разработчикам приходится прибегать к хитростям промпт-инжиниринга. Вместо абстрактных вопросов об эстетике они используют прикладные формулировки.

«Будет ли малый бизнес гордиться возможностью разместить это изображение в своей рекламной кампании?»
«Какое из этих двух селфи мне стоит отправить жене?»

Подобные сценарии успешно снижают «когнитивную защиту» модели, заставляя её выдать честный и точный вердикт.

🧠 Генеративный прорыв в мультимодальности: архитектурные рецепты от Apple и Meta 2:55:55

Ограничения традиционного видения и переход к генеративному обучению 3:04:50

Ранее в разговоре собеседники касались архитектуры зрительных трансформеров и ограничений бенчмарка Blink, демонстрирующего дефицит зрительного восприятия у современных моделей. Обсуждая проблемы распознавания контекста, оптических иллюзий и точности подсчета объектов на изображениях, Уилл Хардман (Will Hardman) указывает на важный методологический тупик всей индустрии. Подавляющее большинство существующих больших мультимодальных моделей полагается на контрастивное предобучение зрительного энкодера. Однако эксперты всё чаще задаются вопросом: не ограничивает ли такой подход гибкость и глубину формируемых представлений? В то время как для языковых моделей генеративное предобучение доказало свою невероятную эффективность, в сфере компьютерного зрения долгое время доминировали иные подходы.

Уилл Хардман подчеркивает, что отсутствие встроенных индуктивных предвзятостей (inductive priors), которые ранее вручную закладывались в сверточные нейросети (CNN), делает стандартные зрительные трансформеры менее эффективными на малых масштабах данных и скромных датасетах. На огромных масштабах трансформеры полностью перехватывают инициативу, но сам способ их базового обучения требует радикального переосмысления. Именно эту фундаментальную проблему попыталась решить команда исследователей из Apple, предложив отказаться от классического контрастивного лосса в пользу генеративных методов восстановления информации.

Генеративное предобучение энкодеров от Apple: модель AIMv2 3:05:57

Специалисты из Apple задались вопросом: возможно ли осуществить полноценное мультимодальное предобучение зрительного энкодера, полностью исключив контрастивную функцию потерь? Ответом на этот вызов стала архитектура AIMv2, которая успешно перенесла проверенный временем рецепт генеративного обучения из текстовой домены в визуальную.

Экспериментальная установка исследователей состояла из двух ключевых компонентов, обучаемых с нуля в рамках единого сквозного шага:

Стандартный зрительный трансформер (vanilla ViT).
Декодер на базе архитектуры Transformer.

Для обучения использовался масштабный микс данных, состоящий из пар изображений и текстовых описаний. При этом текстовая часть представляла собой комбинацию реального альт-текста, собранного из веб-страниц, и высококачественных синтетических подписей, сгенерированных моделью класса LLaVA.

Процесс подготовки и подачи данных выглядел следующим образом: исходное изображение разбивалось на небольшие патчи, которые преобразовывались в непрерывные визуальные токены. Важно заметить, что это были «мягкие» токены (soft tokens), полученные напрямую, а не из фиксированной кодовой книги. Эти визуальные токены всегда подавались в модель первыми, а сразу за ними в рамках единой последовательности следовали текстовые токены.

В процессе обучения применялся механизм префиксного внимания (prefix attention). Случайный поднабор визуальных токенов, идущих в самом начале, подвергался маскированию. Задача декодера заключалась в том, чтобы восстановить пропущенные элементы визуальной последовательности, а затем предсказать последующие текстовые токены. На этапе генерации текста использовалось стандартное каузальное маскирование слева направо. Функция потерь вычислялась исключительно для тех токенов, которые не входили в исходный префикс.

Поскольку физическая природа визуальных и текстовых данных принципиально отличается, авторы применили комбинированный подход к расчету лосса:

Для текстовых токенов, выбираемых из фиксированного словаря, применялась стандартная кросс-энтропия.
Для непрерывных визуальных токенов использовалась функция средней квадратичной ошибки (MSE), сравнивающая предсказанный декодером патч с оригинальным.

После завершения этапа предобучения исследователи сделали изящный шаг: они полностью отбросили обученный декодер. Полученный зрительный трансформер AIMv2 был подключен к большой языковой модели Llama 3 через простой многослойный перцептрон (MLP) для создания полноценной мультимодальной системы. Финальная калибровка проводилась на стандартном наборе данных для инструктивного fine-tuning от LLaVA.

Результаты абляционных исследований превзошли ожидания: модель AIMv2 продемонстрировала уверенное превосходство над аналогичными по размеру энкодерами, обученными контрастивным методом (такими как CLIP), на всех протестированных бенчмарках. Наиболее выраженный прирост эффективности был зафиксирован в задачах генерации описаний (captioning) и визуального ответа на вопросы (VQA).

Модель Transfusion: сквозная генерация контента без квантования токенов 3:18:29

До сих пор индустрия развивала преимущественно мультимодальные модели, ориентированные исключительно на понимание визуального контента, в то время как функция генерации оставалась изолированной. Традиционный пользовательский опыт взаимодействия с ИИ строится на внешних связках: большая языковая модель создает текстовый промпт, который затем передается выделенной диффузионной системе вроде Imagen 3 или DALL-E 3. Несмотря на то, что анонсированная модель GPT-4o заявлялась как нативно мультимодальная на выходе, эти возможности долгое время сдерживались разработчиками из-за инфраструктурных проблем и вопросов безопасности.

Исследовательское подразделение FAIR компании Meta планомерно изучало концепцию «истинной мультимодальности», выпустив серию работ от CM3 и CM3Leon (Chameleon) до обновленной архитектуры Chameleon. Однако вершиной этой эволюции стал подход Transfusion, предложивший наиболее многообещающий рецепт для сквозного понимания и генерации контента в рамках единой нейросети.

Суть метода Transfusion заключается в предобучении одного унифицированного трансформера на сбалансированной смеси текстовых и визуальных данных. Главное новшество архитектуры состоит в одновременном использовании двух совершенно разных целевых функций обучения для каждой из модальностей внутри единой модели.

В предыдущих итерациях мультимодальных моделей от Meta инженеры прибегали к принудительному квантованию изображений перед отправкой в трансформер. Этот процесс подразумевал преобразование картинки через вариационный автоэнкодер (например, архитектуру VQ-GAN) для сопоставления векторов с обучаемой кодовой книгой дискретных токенов, содержащей, к примеру, 10 000 вариантов. В Transfusion разработчики полностью отказались от квантования визуальных токенов. Вместо этого модель оперирует непрерывными представлениями, объединяя классическое авторегрессионное предсказание текста и диффузионную генерацию изображений без потери точности, что обеспечивает колоссальный прорыв в качестве и эффективности обучения.

🚀 Малые мультимодальные модели: Эффективность и лидеры сегмента 3:43:04

В ландшафте современных нейросетевых архитектур особое внимание исследователей и разработчиков приковано к компактному классу моделей. Несмотря на меньшее количество параметров, эти решения демонстрируют высокую производительность, что делает их крайне привлекательными для практического внедрения. Сравнение эффективности малых моделей выявляет интересные закономерности: лидерство в конкретных задачах часто зависит не только от архитектурных решений, но и от интенсивности использования обучающих данных и продвинутых методов выравнивания.

Феномен Phi-3.5 Vision и секрет его успеха 3:44:41

Одним из наиболее примечательных открытий последнего времени стала модель Phi-3.5 Vision от Microsoft. При размере всего в 4 миллиарда параметров она демонстрирует неожиданно высокие показатели в специализированных бенчмарках, в частности, в Blink, где модель достигает 58,3%. Хотя в тестах на мультимодальную логику (MMMU) её результаты скромнее, успех в задачах зрительного восприятия Blink выделяет её на фоне конкурентов того же класса.

Технический отчет по Phi-3.5 Vision раскрывает уникальный подход к обучению, который, по всей видимости, является ключом к такой эффективности:

Масштаб предобучения: Модель была обучена на полутриллионе токенов из смешанного набора данных, что является колоссальным объемом для модели столь малого размера.
Синтетическое превосходство: Команда Microsoft уделила беспрецедентное внимание этапу супервизорной настройки (SFT). Использованный ими датасет инструкций объемом в 33 миллиарда токенов является одним из самых крупных в открытых исследованиях.
DPO-выравнивание: Важным фактором стало применение прямого предпочтительного обучения (Direct Preference Optimization — DPO). Ранее использование DPO в явном виде было характерно лишь для немногих моделей, таких как Llama 3V, что подчеркивает стремление Microsoft к тонкой настройке поведения модели под конкретные человеческие предпочтения.

Этот «рецепт» — сочетание массированного предобучения и сверхкрупного, качественно подобранного набора данных для инструкций — позволяет компактной модели конкурировать с гораздо более «тяжелыми» архитектурами. Хотя данных для окончательных выводов пока недостаточно, широкое обсуждение и высокие оценки в профессиональном сообществе подтверждают, что Phi-3.5 Vision задает новую планку для развития малых мультимодальных систем. Ранее в разговоре Уилл Хардман отмечал, что даже в рамках других архитектур, таких как Transfusion, гибридные подходы начинают демонстрировать удивительную эффективность при меньших затратах вычислительных мощностей (FLOPs).

🚀 Будущее мультимодальных моделей и практика в Veratai 3:46:28

Размышляя о траектории развития мультимодальных моделей (VLM) в ближайшем будущем, Уилл Хардман (Will Hardman) отмечает, что индустрия продолжит двигаться по пути «трансфузионного» рецепта (transfusion recipe) для создания по-настоящему мультимодальных систем. Ожидается дальнейший рост количества параметров в open-source моделях, особенно с учетом эффективности подходов прогрессивного масштабирования языковых бэкендов.

Ключевые направления инноваций, которые прогнозирует эксперт:

Дальнейшее совершенствование методов предобучения Vision Transformers, а возможно, и их замещение новыми архитектурами.
Активное развитие датасетов для тонкой настройки, включающих как программные, так и человеческие аугментации.
Исследование роли методов посттренировочного выравнивания (alignment), таких как DPO, в архитектурах VLM, что пока остается недостаточно изученной областью.

Ранее в разговоре эксперты затрагивали эволюцию мультимодальных моделей и вопросы их архитектуры, включая подходы, реализованные в моделях вроде Flamingo и LLaVA.

🛠 Прикладные AI-стратегии и быстрая разработка прототипов 3:48:23

В своей коммерческой деятельности Уилл Хардман и его компания Veratai фокусируются на оказании стратегической поддержки организациям, особенно предприятиям среднего бизнеса. Основной фокус работы — это сочетание глубокой экспертизы в Data Science с практическими методологиями внедрения AI.

Методология Veratai строится на «быстром прототипировании». В условиях, когда результаты работы AI сильно зависят от специфики данных и вычислительных ресурсов клиента, компания структурирует эксперименты так, чтобы дешево и быстро определять границы применимости технологий. Этот опыт находит применение в медицине — например, при анализе использования медицинских терминологий языковыми моделями, а также в области открытых источников (OSINT). В задачах OSINT мультимодальные способности моделей критически важны для сопоставления визуального контента с текстовыми утверждениями и контекстом.

🧠 Экспертная интуиция и «подготовка ума» 3:51:27

Секрет способности экспертов быстро находить решения для сложных запросов клиентов кроется в глубоком и постоянном погружении в исследовательскую повестку. Хардман проводит аналогию с тем, как профессионалы «насматривают» материал: чтобы мгновенно распознать решение проблемы, нужно обладать подготовленным умом, который «впитал» в себя огромное количество информации из научных статей, новостных рассылок и специализированных площадок.

Для поддержания этой «интуиции паттерн-матчинга» Уилл использует личный индексируемый архив всех изученных материалов, который работает как персональная база знаний (RAG-индекс). Именно это накопленное «стечение» знаний позволяет при виде конкретной бизнес-задачи сразу предлагать варианты её реализации, опираясь на существующий стек технологий.

С деятельностью компании и публикациями Уилла Хардмана можно ознакомиться на сайте veratai.co.uk или в его профиле в LinkedIn.