# Мин Дин об эволюции ИИ: от больших языковых к мультимодальным моделям

Источник: https://www.youtube.com/watch?v=cYfKQ6YG9Qo
Канал: Stanford Online
Опубликовано: 30.05.2024

---

Развитие искусственного интеллекта стремительно движется от анализа чистого текста к глубокому пониманию мультимодальных данных. В рамках лекции на знаменитом курсе Stanford CS25 Мин Дин, ведущий исследователь китайской компании Zhipu AI, подробно разобрал эволюцию больших языковых моделей и их трансформацию в комплексные мультимодальные системы. Автор раскрыл внутреннюю кухню разработки современных ИИ-продуктов, объяснив, почему качественные данные побеждают сложные алгоритмы, и как инженерия систем машинного обучения определяет успех ведущих лабораторий мира.

## 🕰️ Три эпохи больших языковых моделей: от BERT до ChatGPT
[[JUMP:3:26]]

Оглядываясь на историю развития отрасли, Мин Дин выделяет три поворотных момента, которые полностью изменили понимание природы языкового моделирования. Первый этап — «момент рождения» — связан с появлением модели BERT в 2018 году. В то время исследовательское сообщество еще не имело единого представления о том, как заставить машины понимать человеческий язык. 


Доминировало мнение, что метод маскирования (Masked Language Model), использованный в BERT, идеален для понимания текста, авторегрессионный подход GPT лучше справляется с генерацией, а архитектура T5 пытается совместить оба подхода, оставаясь избыточной. Стремясь объединить эти парадигмы, Мин Дин в составе исследовательской группы разработал архитектуру GLM (General Language Model) в стиле decoder-only. Метод маскировал 15% последовательности, как BERT, но предсказывал скрытые токены авторегрессионно, демонстрируя превосходные результаты в обоих типах задач.

Вторым переломным этапом стал «момент GPT-3», который доказал первостепенную важность законов масштабирования (Scaling Laws). Стало очевидно, что архитектурные изыски имеют свой предел эффективности, тогда как простое наращивание вычислительных мощностей гарантирует предсказуемое улучшение качества модели (снижение перплексии). С этого момента разработка ИИ во многом превратилась в чисто инженерную задачу: если бюджет увеличивается в четыре раза, достаточно распределить эти ресурсы на покупку дополнительных вычислительных узлов, увеличение числа параметров и расширение обучающего датасета.

Третьим и самым значимым этапом исследователь называет «момент ChatGPT», преподнесший научному сообществу «горький урок»:

* Адаптация модели под конкретные пользовательские задачи (task adaptation) оказалась крайне дешевой процедурой.
* Главную ценность составляют знания, полученные моделью на этапе предварительного обучения (pretraining).

Мин Дин ссылается на фундаментальную работу InstructGPT от OpenAI, показавшую колоссальный прирост человеческих предпочтений после этапа выравнивания (alignment). При этом недавнее исследование компании Zhipu AI выявило важную закономерность: результаты модели на прикладных задачах напрямую зависят исключительно от функции потерь (loss), достигнутой на этапе предобучения. 

По мнению Мин Дина, если маленькую модель обучать дольше и довести ее loss до уровня крупной модели, их эффективность в прикладных задачах будет абсолютно одинаковой. На основании этого исследователь утверждает, что так называемые «эмерджентные (внезапно возникающие) способности» больших моделей — не более чем слухи; вся современная разработка LLM свелась к банальной подгонке математических кривых.

## 🏗️ Анатомия архитектуры и инфраструктура обучения (MLSys)
[[JUMP:13:01]]

Несмотря на доминирование концепции «подгонки кривых», дьявол кроется в деталях инженерной реализации. Интересно, что практически все ключевые архитектурные улучшения современного трансформера основаны на работах Ноама Шазира (Noam Shazeer), первого автора фундаментальной статьи «Attention Is All You Need». Мин Дин выделяет стандартный стек современной open-source модели (например, Llama):

* **Decoder-only:** классическая схема «энкодер-декодер» признана избыточной, так как разные наборы параметров вынуждены заново учиться понимать одну и ту же задачу.
* **Pre-Layer Norm:** слой нормализации перенесен до остаточного соединения (residual connection), что стабилизирует обучение.
* **RoPE (Rotary Position Embedding):** вращающиеся позиционные эмбеддинги, которые изначально были описаны в китайском техническом блоге, но доказали высочайшую эффективность на практике.
* **Grouped-Query Attention (GQA):** еще одно изобретение Шазира, радикально экономящее память видеокарт при инференсе.
* **GLU (Gated Linear Unit) и MoE (Mixture of Experts):** модификации полносвязных слоев, позволяющие получать более высокое качество при фиксированном количестве операций (FLOPs).

Для обучения подобных систем требуются мощные программные платформы. Исторически первым стандартом стала библиотека DeepSpeed от Microsoft и заложенная в ее основу технология ZeRO (Zero Redundancy Optimizer). Создатели ZeRO первыми наглядно показали, что основной объем памяти GPU поглощают не сами параметры модели, а состояния оптимизатора Adam (состояния и мастер-веса должны храниться в формате высокой точности Float32).


Стратегия ZeRO-1 распределяет мастер-веса и состояния оптимизатора по всем доступным видеокартам в рамках параллелизма данных (data parallel ranks), снижая нагрузку на отдельный ускоритель. Важнейшим дополнением является механизм Activation Checkpointing: вместо сохранения всего графа вычислений для обратного прохода инженеры сохраняют лишь промежуточные скрытые состояния, заново пересчитывая слои на обратном пути, что экономит колоссальный объем памяти. Режимы ZeRO-2 (вынос части данных в CPU) и ZeRO-3 (полное шардирование модели по картам) превратили распределенное обучение в доступный процесс с чистым API.

Для сверхкрупных моделей (более 100 миллиардов параметров) стандартом де-факто является фреймворк Megatron-LM от NVIDIA. Он опирается на два столпа:

1.  **Tensor Parallel (TP):** распараллеливание скрытых слоев и голов внимания между отдельными видеокартами, требующее быстрых межчиповых операций All-Reduce.
2.  **Pipeline Parallel (PP):** разделение слоев модели по разным картам «цепочкой». Этот метод неизбежно создает простои оборудования («пузыри»), для борьбы с которыми применяются сложные алгоритмы interleaved-распределения и схемы ZeroBubble.

По замечанию лектора, в современных ИИ-лабораториях работа над слоями MLP (полносвязными сетями) отошла на второй план. Настоящая битва разворачивается в области ML6 — систем машинного обучения (MLSys).

## 📄 Бесшовный длинный контекст и выравнивание моделей
[[JUMP:21:17]]

Современные масштабы работы с длинным контекстом (свыше 100 000 токенов) без потери качества превосходят любые ожидания пятилетней давности. Мин Дин вспомнил свою сложную статью на NeurIPS прошлых лет, где для эмуляции долгосрочной памяти человека приходилось выстраивать громоздкие системы с retrieval-поиском и прогнозированием. Сегодня эта проблема элегантно решается на системном уровне с помощью Context Parallel (контекстного параллелизма).

Последовательность токенов разбивается по картам ускорителей, а вычисление матрицы внимания происходит через алгоритмы Ring Attention или технологии внутри библиотеки DeepSpeed Ulysses. Инфраструктура TransformerEngine от NVIDIA берет на себя балансировку вычислительной нагрузки между ядрами. В результате старые методы поиска по документам (вроде BM25) уступили место полному контекстному окну трансформера, способному за один проход вытащить и проанализировать скрытые факты из сотен страниц текста.

На этапе выравнивания (alignment) после предобучения базовой модели применяются два ключевых шага:

* **SFT (Supervised Fine-Tuning):** классическое дообучение на высококачественных инструкциях. Мин Дин подчеркивает, что сегодня это не просто краудсорсинг. Серьезные компании нанимают высококлассных экспертов из разных областей. Например, чтобы научить модель писать и форматировать код, нанимают опытных программистов. Для академических исследований активно применяется дистилляция данных из коммерческих систем (например, GPT-4 Turbo).
* **Weak-to-Strong Generalization:** концепция, доказывающая, что если у вашей модели значение pretraining loss ниже, чем у «учителя», она способна превзойти его в финальном качестве, даже обучаясь на его же SFT-ответах.

Для финального обучения под человеческие предпочтения классический метод RLHF (обучение с подкреплением на основе отзывов людей) используется в open-source сегменте редко. Причина проста: алгоритм PPO (Proximal Policy Optimization) крайне капризен, нестабилен и сложен в реализации. Вместо него большинство разработчиков перешли на метод DPO (Direct Preference Optimization), созданный в Стэнфорде. Он исключает необходимость обучения отдельной модели вознаграждения (reward model) и обновляет веса напрямую через пары предпочтений (preferable/unpreferable pairs), обеспечивая простоту и высокую стабильность.

## 📊 Дилемма «Данные против алгоритмов» на примере мультидокументного поиска
[[JUMP:28:45]]

Главный «открытый секрет» всех ведущих ИИ-компаний заключается в том, что очистка, фильтрация и синтез данных сегодня важнее любых архитектурных новшеств. Мин Дин выдвигает концепцию взаимозаменяемости данных, алгоритмов и архитектур:

> «Данные — это самая общая форма выражения задачи. Вы можете заложить индуктивное смещение в архитектуру или придумать хитрый алгоритм, но в конечном итоге любую специфическую проблему проще и эффективнее решить правильным подбором обучающих данных».

В качестве примера докладчик привел классическую задачу многошагового поиска ответов (Multi-hop Question Answering), когда для формулирования вывода модели необходимо выстроить логическую цепочку между несколькими независимыми документами. 

Будучи аспирантом, Мин Дин разработал для этого систему CogQA, использующую сложнейшие графовые нейросети (GNN). Параллельные работы других ученых опирались на алгоритмы поиска по дереву Монте-Карло (MCTS) в связке с BERT. Эти подходы выглядели эффектно и получали высшие баллы на рецензиях ACL. 

Однако сегодня эта наукоемкая проблема тривиально решается коммерческими LLM с длинным контекстом с помощью обычного промпта Chain-of-Thought (цепочка рассуждений). Достаточно загрузить все документы в контекст, и модель сама выстроит связи на уровне данных. Решение на уровне данных всегда оказывается самым надежным, так как оно не ломает общую функциональность модели на других задачах.

## 👁️ Зрительное восприятие ИИ: эволюция мультимодального понимания
[[JUMP:34:18]]

За последний год визуально-языковые модели (VLM) совершили качественный скачок. Эволюция архитектур шла по пути упрощения интеграции визуальных признаков в текстовое пространство:

1.  **BLIP-2:** первая успешная попытка связать готовый энкодер изображений CLIP и большую языковую модель с помощью промежуточного трансформера Q-Former. Q-Former обучался сопоставлять разные пространства признаков картинки и текста на огромных массивах пар «изображение-описание».
2.  **LLaVA:** более лаконичная и популярная архитектура, заменившая сложный Q-Former простым проекционным слоем (projection weight).
3.  **CogVLM:** собственная разработка команды Мин Дина. Главная проблема подходов вроде LLaVA заключается в том, что при совместном обучении зрению текстовые способности языковой модели деградируют. В CogVLM были внедрены так называемые «визуальные эксперты» (vision experts) — выделенные обучаемые веса в слоях feedforward и матрицах внимания, которые обрабатывают исключительно визуальные токены. Исходные веса LLM при этом замораживаются, что позволяет полностью сохранить языковую логику и добиться выдающихся результатов на бенчмарках (модель была скачана более 500 000 раз за последний месяц).


Для создания полноценных ИИ-агентов была выпущена модель CogAgent, ориентированная на сверхвысокое разрешение изображений. Вместо прямого кодирования картинки в огромную текстовую цепочку, CogAgent использует механизм Cross-Attention (перекрестного внимания) к низкоуровневым и высокоуровневым признакам. Модель способна выступать в роли веб-агента: она принимает на вход скриншот страницы и пошагово планирует действия на экране (например, находит нужные поля ввода для покупки билетов).

Флагманская модель компании GLM-4V использует еще более элегантный подход: инженеры заменили стандартную проекционную матрицу LLaVA на сверточный слой со страйдом (stride convolution). Это позволило эффективно обрабатывать высокое разрешение документов, сохраняя приемлемую длину контекста. По утверждению Мин Дина, GLM-4V выступает на равных с GPT-4V, Gemini и Claude 3, обгоняя их в распознавании китайских иероглифов и анализе сложных документов со схемами. Проверить работу модели можно бесплатно в официальном приложении на сайте `chatglm.cn`.

## 🎨 Генерация изображений и видео: почему диффузия победила авторегрессию
[[JUMP:44:05]]

В сфере создания изображений долгое время шла борьба подходов. В 2021 году Мин Дин выпустил модель CogView, основанную на авторегрессионном методе (как DALL-E от OpenAI и Parti от Google). Изображение квантовалось с помощью VQ-VAE в дискретные токены, которые подавались в стандартный GPT сразу после текстового описания. На базе CogView 2 исследователи пытались построить универсальную мультимодальную модель (Universal Modeling): меняя местами токены текста и картинок в контексте, сеть могла одновременно работать и на генерацию картинок, и на описание изображений (image captioning).

Однако универсальный подход проиграл специализированным системам. При дискретном квантовании картинок теряется слишком много мелких деталей, из-за чего авторегрессионные модели уступили диффузии в качестве генерации, а специализированным VLM — в понимании визуального контента.

Диффузионный метод (DDPM) победил авторегрессионный в графике по двум ключевым причинам:

* **Эффективность утилизации GPU:** авторегрессионный инференс пошагово генерирует токен за токеном, простаивая при маленьком размере батча. Дифференциальная модель обрабатывает всю плоскость изображения параллельно за фиксированное число шагов, загружая видеокарту на 100% и работая в тысячи раз быстрее на высоком разрешении.
* **Пространственные связи:** в 1D-последовательности авторегрессии крайний левый верхний пиксель и правый нижний находятся на огромном расстоянии друг от друга, что усложняет композицию. В диффузии благодаря 2D-архитектуре все пиксели изначально «видят» друг друга.

Для решения проблемы искажения шума на разных разрешениях команда Мин Дина создала модель Relay Diffusion, контролирующую уровень сигнал/шум в частотной области за счет блочного зашумления. Технология легла в основу быстрой коммерческой модели CogView3.


Революцией в самой диффузии стал перенос ее на рельсы трансформеров — архитектура DiT (Diffusion Transformer) от Meta. Ключевой элемент DiT — слой AdaLN (Adaptive Layer Norm), который динамически предсказывает масштаб и сдвиг нормализации на основе временного шага диффузии (timestamp), задействуя миллионы параметров для обработки одного скалярного числа. Новейшая Stable Diffusion 3 использует развитие этой идеи — архитектуру MM-DiT, где вместо перекрестного внимания к текстовым фичам применяются независимые эксперты для текста и зрения, обученные на детальных описаниях картинок, сгенерированных CogVLM.

Аналогичные принципы лежат в основе успеха генератора видео Sora от OpenAI. Мин Дин выделил четыре столпа архитектуры Sora:

1.  **Отсутствие мерцания артефактов (deflickering):** за счет применения пространственно-временного 3D-энкодера/декодера.
2.  **Масштабируемость и высокое разрешение:** Sora использует наработки контекстного параллелизма (Context Parallel), заимствованные напрямую из систем обучения текстовых LLM.
3.  **Инфраструктурное превосходство:** OpenAI перенесла весь ML-стек больших языковых моделей на диффузию, что позволило масштабировать вычисления сильнее любого конкурента.
4.  **Качество данных:** глубокий инжиниринг данных и автоматическое детальное переописание видеороликов (video recaptioning).

## 🔮 Будущие тренды мультимодального ИИ и советы исследователям
[[JUMP:1:00:05]]

В ближайшие год-два Мин Дин прогнозирует окончательное и дешевое решение фундаментальных проблем компьютерного зрения: распознавание здравого смысла на картинках, считывание эмоций человека и понимание сложных высокоуровневых сцен. Это должно существенно сгладить остроту проблемы «длинного хвоста» редких опасных ситуаций в беспилотном вождении.

Главным полем битвы станет понимание видео. Текущий лидер сегмента — Gemini 1.5 — все еще страдает от жестких галлюцинаций, ошибок подсчета объектов и иных дефектов. Появление новых поколений видеокарт NVIDIA даст индустрии достаточную вычислительную мощность для прорыва в этой сфере. Также ожидаются прорывные демонстрации в области воплощенного ИИ (Embodied AI / робототехника), где LLM будут отвечать за планирование, а VLM — за ориентацию на местности. Впрочем, в повседневную жизнь из-за колоссальной дороговизны такие роботы войдут еще нескоро.

Молодым ученым и аспирантам Мин Дин дал несколько практических советов:

* Индустрия остро нуждается в качественных датасетах и бенчмарках для понимания видео.
* Направление звука и речи (Speech AI) незаслуженно обделено вниманием исследователей и ресурсами GPU, хотя имеет колоссальный коммерческий потенциал.
* Для проведения значимых исследований жизненно необходимо брать в команду или заводить дружбу с аспирантами направления MLSys (системщиками). Любой сильный алгоритм обязан эффективно утилизировать специфику современного «железа».
* Критически важен поиск новых методов конвертации чистых вычислений в данные. Текстовый веб-интернет практически полностью выкачан всеми крупными лабораториями. Будущее за синтезом данных через запуск кода, симуляции, алгоритмы MCTS и обучение с подкреплением.

## ❓ Ответы на вопросы слушателей
[[JUMP:1:08:02]]

**Какова реальная цена внедрения сверхдлинных контекстных окон?**
Основная плата — это высокая задержка времени на этапе профилирования и предварительной загрузки (prefill/profiling stage), когда контекст прогоняется через движок. Сама генерация ответа (decode stage) токен за токеном происходит быстро. На практике пользователю приходится ждать от нескольких секунд до минуты, пока модель «прочитает» огромную пачку документов, прежде чем она выдаст первые слова ответа.

**Действительно ли фокус внимания полностью сместился с архитектур на данные?**
Они неразрывно связаны. Вы можете заложить логику в архитектуру, алгоритм или структуру данных. Но качественные данные действительно эффективнее решают узкие краевые задачи. Тем не менее поиск общих генеральных улучшений самого трансформера для эффективного переваривания этих данных остается актуальным.

**Почему авторегрессия так сильно уступает диффузии в генерации картинок?**
Из-за огромной разницы в скорости: попиксельная генерация тысяч токенов занимает слишком много времени. Диффузия делает это за фиксированное число общих параллельных проходов. Кроме того, одномерная цепочка авторегрессии плохо приспособлена для моделирования сложных двумерных пространственных связей, где пиксели должны соотноситься друг с другом напрямую во всех направлениях.

**В чем ключевое различие моделей CogAgent и CogVLM?**
CogAgent — это специализированное развитие CogVLM для задач интерфейсных агентов. Прямое увеличение входного разрешения в CogVLM приводит к экспоненциальному росту требований к памяти. В CogAgent эту проблему решили добавлением легковесного модуля перекрестного внимания (Cross-Attention), который позволяет эффективно считывать мелкий текст и иконки на скриншотах высокого разрешения без колоссальных затрат вычислительных ресурсов.

**Поможет ли понимание видео развить у ИИ физическое понимание мира?**
Текущие модели обучаются на парах «видео-текст», размеченных людьми, и фактически не используют настоящее самообучение (self-supervised learning) на чистом видеопотоке. ИИ сейчас оперирует человеческими описаниями, а не законами физики. Чтобы модель действительно понимала физический мир, исследовательскому сообществу необходимо изобрести принципиально новые методы предобучения ИИ на чистом видео без подсказок со стороны человека.