Мин Дин из Zhipu AI: от языковых моделей к мультимодальным системам будущего

В рамках курса Стэнфордского университета CS25 главный исследователь китайской компании Zhipu AI Мин Дин представил масштабный обзор эволюции нейросетей — от языковых моделей к большим мультимодальным системам. Автор подробно разобрал технические вехи индустрии, включая особенности обработки длинного контекста, архитектурные нюансы современных трансформеров и фундаментальный переход от авторегрессии к диффузии при генерации медиаконтента. Основной акцент лекции сделан на том, как инженерные решения на уровне систем и качество данных полностью переформатировали современный ландшафт искусственного интеллекта.

🚀 Три эпохи больших языковых моделей 3:26

Развитие систем обработки естественного языка прошло через три ключевых этапа, каждый из которых менял парадигму понимания ИИ. Мин Дин выделяет следующие моменты:

Эпоха зарождения (Birth moment): Появление BERT, GPT и T5. В этот период исследователи пытались нащупать лучшие методы самообучения (self-supervised learning). Доминировало мнение, что маскированные языковые модели (как BERT) идеальны для понимания текста, а авторегрессионные (как GPT) — для генерации. Команда Мин Дина в этот период предложила модель GLM, которая объединяла оба подхода в стиле decoder-only, маскируя случайные части последовательности и предсказывая их авторегрессионно. Оказалось, что при маскировании всего 15% текста модель превосходила BERT по качеству понимания.
Эпоха GPT-3 и законов масштабирования (Scaling Laws): Период, когда фокус сместился с архитектурных инноваций на чистую инженерию и объемы вычислений. Законы масштабирования доказали, что усложнение алгоритмов имеет верхний предел эффективности, тогда как кратное увеличение вычислительной мощности и объема токенов дает гарантированное и предсказуемое улучшение метрик (перплексии). Архитектура ИИ временно отошла на второй план, уступив место распределенным системам.
Эпоха ChatGPT (Alignment moment): Осознание того, что адаптация под конкретные задачи (task adaptation) обходится крайне дешево, а ключевую роль играет багаж знаний, полученный моделью на этапе предобучения (pretraining). Настройка модели под формат диалога (alignment) с помощью InstructGPT колоссально улучшила пользовательский опыт и соответствие человеческим предпочтениям.

По мнению Мин Дина, распространенное в медиа представление об «эмерджентных» (внезапно возникающих) способностях ИИ при увеличении числа параметров является мифом. Спикер утверждает, что метрики прикладных задач жестко и линейно привязаны исключительно к функции потерь (loss) на этапе предобучения. Если маленькую модель обучать дольше и довести ее loss до уровня крупной модели, их эффективность в финальных тестах окажется абсолютно идентичной. Вся индустрия LLM, как считает гость, превратилась в глобальную игру по подгонке математических кривых (curve fitting).

🛠️ Архитектурная эволюция: находки из блогов и наследие Ноама Шазира 13:29

Современная архитектура трансформеров претерпела на удивление мало радикальных изменений с момента выхода оригинальной статьи 2017 года. Мин Дин подчеркивает, что большинство значимых улучшений, используемых сегодня в коммерческих и открытых моделях (например, в Llama), были предложены соавтором базовой архитектуры Ноамом Шазиром или заимствованы из неожиданных источников:

Переход к Decoder-only: Оригинальный трансформер содержал энкодер и декодер, что создавало избыточность параметров, так как обе части независимо учились понимать задачу. Сейчас индустрия полностью сфокусирована на декодерных архитектурах.
Pre-Layer Norm: Смещение нормализации слоев до ре резидуального (остаточного) соединения, а не после него, что существенно стабилизировало обучение глубоких сетей.
Позиционное кодирование RoPE (Rotary Position Embedding): Любопытный прецедент в индустрии — технология была впервые опубликована не в рецензируемой научной статье, а в китайском техническом блоге, однако доказала колоссальную эффективность и стала стандартом.
Grouped-Query Attention (GQA): Решение Ноама Шазира, позволяющее значительно экономить память видеокарты при инференсе за счет группировки ключей и значений в механизме внимания.
Активационные функции GLU и слои Mixture-of-Experts (MoE): Также предложенные Шазиром концепции, позволяющие использовать меньше вычислительных операций (FLOPs) на токен при сохранении огромного общего объема параметров модели.

🖥️ Инфраструктура обучения: почему системы победили алгоритмы 16:14

Для обучения современных гигантов с сотнями миллиардов параметров требуются мощные программные комплексы. Мин Дин иронизирует, что для претрейнеров сегодня «архитектура MLP не так важна, важнее ML6 и системная инженерия». В индустрии доминируют два ключевых фреймворка:

DeepSpeed (Microsoft): Популярность библиотеке принесла технология ZeRO (Zero Redundancy Optimizer). Разработчики выяснили, что львиную долю памяти GPU занимают не сами веса модели, а состояния оптимизатора Adam (хранящиеся в режиме высокой точности float32). Технология ZeRO-1 распределяет эти состояния по разным видеокартам, ZeRO-2 позволяет выгружать их на CPU, а ZeRO-3 (FSDP) полностью разрезает (шардирует) параметры модели между картами, собирая их обратно на лету только в момент вычисления конкретного слоя. Также активно применяется метод Activation Checkpointing, когда промежуточные состояния слоев не хранятся в памяти при прямом проходе, а перевычисляются заново при обратном.
Megatron (NVIDIA): Безальтернативное решение для супермоделей масштаба 100B+ параметров. Оно задействует Tensor Parallel (разделение скрытых слоев и голов внимания внутри одной видеокарты с использованием операции All-Reduce) и Pipeline Parallel (нарезка слоев последовательно по разным GPU). Для минимизации простоев видеокарт (так называемых "пузырей" в пайплайне) инженеры используют продвинутые расписания вроде Interleaved и ZeroBubble.

Отдельным прорывом спикер называет бесшовное масштабирование контекста (lossless long context) до 100 000+ токенов. Пять лет назад исследователям приходилось изобретать сложные когнитивные схемы с рабочей памятью и внешним поиском, чтобы имитировать долгосрочное понимание. Сегодня за счет Context Parallel (нарезка длинной последовательности по картам с использованием алгоритмов Ring Attention или Ulysses) и библиотеки TransformerEngine длинный контекст обрабатывается через честное полнотекстовое внимание (full attention). Это полностью похоронило старые методы поиска информации вроде BM25.

🎯 Выравнивание моделей и скрытая магия данных 24:28

Процесс Alignment состоит из двух фаз: SFT (Supervised Fine-Tuning) и преференциального обучения. На этапе SFT ключевым фактором стал отказ от массового краудсорсинга в пользу привлечения высококлассных экспертов: например, для обучения написанию кода нанимаются опытные программисты, создающие эталонные цепочки рассуждений. Многие компании используют дистилляцию данных из коммерческих систем вроде GPT-4 Turbo, хотя OpenAI запрещает использовать свои ответы для создания конкурирующих продуктов. Мин Дин отмечает, что в исследовательских целях это допустимо, к тому же феномен Weak-to-Strong Generalization доказал: если претрейн-loss вашей модели ниже, чем у «учителя», вы сможете превзойти его даже при обучении на его собственных SFT-данных.

Вместо классического метода RLHF на базе алгоритма PPO, который гость называет крайне капризным и сложным в обучении, большинство современных open-source проектов перешли на метод DPO (Direct Preference Optimization), созданный в Стэнфорде. Он исключает необходимость тренировки отдельной модели вознаграждения (reward model) и обновляет веса напрямую по парам предпочтительных и непредпочтительных ответов.

Главным же секретом успеха любой ИИ-лаборатории спикер называет пайплайны очистки, фильтрации и синтеза данных.

«Медиа видят в разработке ИИ некое таинство, но в реальности большая часть работы инженеров в ИИ-компаниях — это банальная рутинная стирка и чистка терабайтов данных», — делится Мин Дин.

В качестве примера эволюции подходов Мин Дин приводит свою старую PhD-работу CogQA, призванную решать сложные многошаговые вопросы (multi-hop QA) по нескольким документам с помощью громоздких графовых нейросетей. Сегодня эта задача тривиально решается подачей всех документов в сверхдлинный контекст современной LLM с использованием стандартного Chain-of-Thought (цепочки рассуждений). Проблема алгоритмического уровня была полностью поглощена решением на уровне данных.

👁️ Мультимодальный прорыв: от картинок к веб-агентам 34:35

В области понимания изображений (Vision-Language Models) индустрия за год совершила тектонический сдвиг. Родоначальником коммерческого подхода Мин Дин считает модель BLIP-2, которая связывала замороженный энкодер CLIP и языковую модель через обучаемый модуль Q-former. Однако архитектурным стандартом стала более простая схема LLaVA, использующая обычный проекционный слой (projection weight) для трансформации визуальных фич в текстовые токены.

Собственная разработка команды Мин Дина — модель CogVLM — создавалась для решения фундаментальной проблемы: при обучении мультимодальности текстовые способности базовой LLM часто деградируют. Инженеры Zhipu AI внедрили концепцию Vision Experts — отдельные обучаемые веса в слоях внимания и MLP, которые обрабатывают исключительно визуальные токены, оставляя базовые языковые веса нетронутыми. Модель CogVLM стала хитом open-source, собрав более 500 000 скачиваний за месяц.

Ее развитие, модель CogAgent, использует кросс-внимание для обработки скриншотов в сверхвысоком разрешении без раздувания контекста LLM. Спикер продемонстрировал, как CogAgent работает в режиме полноценного веб-агента: анализирует интерфейс сайтов, понимает мелкие иконки и пошагово выполняет команды пользователя (например, ищет лучшие научные статьи или бронирует билеты).

Самая продвинутая коммерческая мультимодальная модель компании, GLM-4V, использует архитектуру со страйд-сверткой (stride convolution) вместо стандартного проектора LLaVA. По утверждению разработчиков, она работает на уровне GPT-4V, Gemini и Claude 3, радикально превосходя их в распознавании китайских иероглифов и сложных документов (OCR). Мин Дин продемонстрировал, как модель безошибочно расшифровывает сложнейшие рукописные чертежи-мемы, и пригласил всех бесплатно протестировать ее на платформе chatglm.cn.

🎨 Генерация медиаконтента: почему диффузия разгромила авторегрессию 44:05

В начале мультимодальной эры исследователи (включая команду Мин Дина с проектом CogView в 2021 году) пытались генерировать изображения авторегрессионно — точно так же, как текст. Картинка разбивалась через VQ-VAE токенизатор на дискретные токены, выстраивалась в цепочку «сначала текст, потом изображение», и трансформер предсказывал токен за токеном. По такой схеме создавались DALL-E от OpenAI и Parti от Google.

Однако концепция универсального авторегрессионного моделирования (когда одна сеть и понимает, и генерирует медиа) зашла в тупик. По словам спикера, дискретизация картинок приводит к катастрофической потере информации, из-за чего качество понимания у таких моделей хуже, чем у выделенных VLM, а генерация картинок идет неприемлемо медленно.

В итоге гонку генерации графики выиграли диффузионные модели (DDPM). Их ключевое преимущество — колоссальная скорость инференса за счет стопроцентной утилизации мощностей GPU. Авторегрессионная модель при генерации токена с размером батча равным единице фактически простаивает, тогда как диффузия прогоняет через тензорные ядра всю матрицу изображения за несколько шагов шумоподавления.

Для решения проблемы искажения шума на разных разрешениях (когда картинки одинакового уровня зашумления выглядят по-разному в низком и высоком разрешении) Zhipu AI разработала модель Relay Diffusion, использующую блочный шум (block noise) для сохранения частотных характеристик. На этой базе была создана быстрая коммерческая сеть CogView3.

В современных архитектурах генерации также доминируют трансформеры, вытеснившие старые UNet-структуры:

DiT (Diffusion Transformer) от Meta: Внедрил адаптивную нормализацию слоев (ada layer norm), зависящую от временного шага диффузии.
Stable Diffusion 3 (MM-DiT): Новейшая модель от Stability AI, которая использовала CogVLM от Zhipu AI для полной переразметки (recaptioning) своего датасета, а также отказалась от кросс-внимания в пользу раздельных экспертных блоков для текста и графики.

Комментируя успех модели Sora от OpenAI в генерации видео, Мин Дин отметил, что технологического чуда там нет — это масштабное скрещивание диффузионного трансформера и системной инфраструктуры больших языковых моделей. Эффект отсутствия мерцания (deflickering) достигается за счет хорошего 3D-энкодера, высокое разрешение — за счет Context Parallel, а реалистичная физика — результат тотального масштабирования вычислений и глубокой переразметки видеороликов.

🔮 Тренды на ближайшие годы и практические советы 1:00:23

По прогнозам Мин Дина, в ближайшие один-два года нас ждут следующие изменения на рынке ИИ:

Решение базовых визуальных задач: Распознавание здравого смысла на картинках, чтение эмоций и высокоуровневая разметка сцен станут повсеместными, дешевыми и фактически решенными технологиями. Это частично сгладит проблему «длинного хвоста» редких аварийных ситуаций в беспилотном вождении.
Ренессанс понимания видео: Сейчас даже Gemini 1.5 грешит галлюцинациями, ошибками в подсчете объектов и слабой логикой при анализе видео. С выходом новых поколений GPU у индустрии появится достаточно мощностей, чтобы закрыть эту нишу.
Всплеск в сфере Embodied AI (воплощенный ИИ): Нас ждут невероятные демонстрации робототехники, управляемой мультимодальными трансформерами, хотя в повседневную жизнь из-за высокой стоимости железа эти технологии войдут нескоро.

Молодым ученым и студентам, у которых нет бюджетов уровня Zhipu AI или OpenAI, Мин Дин рекомендует сфокусироваться на создании качественных датасетов и бенчмарков для понимания видео — спрос на них в академической среде сейчас колоссальный. Также спикер советует обратить внимание на аудио- и речевые модели, которые незаслуженно обделены дефицитным вниманием исследователей и ресурсами GPU. Напоследок гость дал прикладной совет: «Если вы хотите делать прорывную науку в сфере ИИ, прямо сейчас найдите и подружитесь со студентами, которые учатся на системных инженеров (Systems PhD), потому что любой гениальный алгоритм сегодня обязан учитывать специфику работы современного «железа».

❓ Ответы на вопросы слушателей 1:08:02

В чем главная плата за использование сверхдлинных контекстных окон? Мин Дин: Главная плата — это время инференса. Процесс делится на две фазы: профилирование (загрузка гигантского контекста в движок) и декодинг (генерация ответов по токенам). Первая фаза может занимать от нескольких секунд до минуты. К счастью, в большинстве сценариев пользователю нужно скормить модели большую книгу, а на выходе получить короткий ответ. Подождать минуту ради этого вполне приемлемо.

Действительно ли архитектурные изыскания мертвы и все сфокусировались только на данных? Мин Дин: Данные, алгоритмы и архитектура взаимосвязаны. Вы можете заложить архитектурное смещение (inductive bias), можете написать алгоритм, а можете просто обучить модель на правильных данных вести себя нужным образом. Данные — это самый общий и простой способ решения специфических проблем, поэтому сейчас на них максимальный фокус. Но если кто-то найдет фундаментальный апгрейд для самого трансформера, который позволит ему еще эффективнее впитывать эти данные, это будет иметь колоссальную ценность.

Почему авторегрессия пространственно проигрывает диффузии в графике? Мин Дин: В авторегрессионной модели самый первый (левый верхний) пиксель и самый последний (правый нижний) разделены в цепочке тысячами токенов, трансформеру тяжело связывать их геометрию. В диффузионной модели все пиксели видят друг друга изначально на каждом шаге, поэтому сложные 2D-пространственные связи моделируются ею гораздо естественнее.