Мин Дин из Zhipu AI: от языковых моделей к мультимодальным системам будущего

Stanford Online 14,4 тыс. 1 ч 19 мин 10 мин 30.05.2024
Главное

В рамках курса Стэнфордского университета CS25 главный исследователь китайской компании Zhipu AI Мин Дин представил масштабный обзор эволюции нейросетей — от языковых моделей к большим мультимодальным системам. Автор подробно разобрал технические вехи индустрии, включая особенности обработки длинного контекста, архитектурные нюансы современных трансформеров и фундаментальный переход от авторегрессии к диффузии при генерации медиаконтента. Основной акцент лекции сделан на том, как инженерные решения на уровне систем и качество данных полностью переформатировали современный ландшафт искусственного интеллекта.

🚀 Три эпохи больших языковых моделей 3:26

Развитие систем обработки естественного языка прошло через три ключевых этапа, каждый из которых менял парадигму понимания ИИ. Мин Дин выделяет следующие моменты:

По мнению Мин Дина, распространенное в медиа представление об «эмерджентных» (внезапно возникающих) способностях ИИ при увеличении числа параметров является мифом. Спикер утверждает, что метрики прикладных задач жестко и линейно привязаны исключительно к функции потерь (loss) на этапе предобучения. Если маленькую модель обучать дольше и довести ее loss до уровня крупной модели, их эффективность в финальных тестах окажется абсолютно идентичной. Вся индустрия LLM, как считает гость, превратилась в глобальную игру по подгонке математических кривых (curve fitting).

🛠️ Архитектурная эволюция: находки из блогов и наследие Ноама Шазира 13:29

Современная архитектура трансформеров претерпела на удивление мало радикальных изменений с момента выхода оригинальной статьи 2017 года. Мин Дин подчеркивает, что большинство значимых улучшений, используемых сегодня в коммерческих и открытых моделях (например, в Llama), были предложены соавтором базовой архитектуры Ноамом Шазиром или заимствованы из неожиданных источников:

🖥️ Инфраструктура обучения: почему системы победили алгоритмы 16:14

Для обучения современных гигантов с сотнями миллиардов параметров требуются мощные программные комплексы. Мин Дин иронизирует, что для претрейнеров сегодня «архитектура MLP не так важна, важнее ML6 и системная инженерия». В индустрии доминируют два ключевых фреймворка:

  1. DeepSpeed (Microsoft): Популярность библиотеке принесла технология ZeRO (Zero Redundancy Optimizer). Разработчики выяснили, что львиную долю памяти GPU занимают не сами веса модели, а состояния оптимизатора Adam (хранящиеся в режиме высокой точности float32). Технология ZeRO-1 распределяет эти состояния по разным видеокартам, ZeRO-2 позволяет выгружать их на CPU, а ZeRO-3 (FSDP) полностью разрезает (шардирует) параметры модели между картами, собирая их обратно на лету только в момент вычисления конкретного слоя. Также активно применяется метод Activation Checkpointing, когда промежуточные состояния слоев не хранятся в памяти при прямом проходе, а перевычисляются заново при обратном.
  2. Megatron (NVIDIA): Безальтернативное решение для супермоделей масштаба 100B+ параметров. Оно задействует Tensor Parallel (разделение скрытых слоев и голов внимания внутри одной видеокарты с использованием операции All-Reduce) и Pipeline Parallel (нарезка слоев последовательно по разным GPU). Для минимизации простоев видеокарт (так называемых "пузырей" в пайплайне) инженеры используют продвинутые расписания вроде Interleaved и ZeroBubble.

Отдельным прорывом спикер называет бесшовное масштабирование контекста (lossless long context) до 100 000+ токенов. Пять лет назад исследователям приходилось изобретать сложные когнитивные схемы с рабочей памятью и внешним поиском, чтобы имитировать долгосрочное понимание. Сегодня за счет Context Parallel (нарезка длинной последовательности по картам с использованием алгоритмов Ring Attention или Ulysses) и библиотеки TransformerEngine длинный контекст обрабатывается через честное полнотекстовое внимание (full attention). Это полностью похоронило старые методы поиска информации вроде BM25.

🎯 Выравнивание моделей и скрытая магия данных 24:28

Процесс Alignment состоит из двух фаз: SFT (Supervised Fine-Tuning) и преференциального обучения. На этапе SFT ключевым фактором стал отказ от массового краудсорсинга в пользу привлечения высококлассных экспертов: например, для обучения написанию кода нанимаются опытные программисты, создающие эталонные цепочки рассуждений. Многие компании используют дистилляцию данных из коммерческих систем вроде GPT-4 Turbo, хотя OpenAI запрещает использовать свои ответы для создания конкурирующих продуктов. Мин Дин отмечает, что в исследовательских целях это допустимо, к тому же феномен Weak-to-Strong Generalization доказал: если претрейн-loss вашей модели ниже, чем у «учителя», вы сможете превзойти его даже при обучении на его собственных SFT-данных.

Вместо классического метода RLHF на базе алгоритма PPO, который гость называет крайне капризным и сложным в обучении, большинство современных open-source проектов перешли на метод DPO (Direct Preference Optimization), созданный в Стэнфорде. Он исключает необходимость тренировки отдельной модели вознаграждения (reward model) и обновляет веса напрямую по парам предпочтительных и непредпочтительных ответов.

Главным же секретом успеха любой ИИ-лаборатории спикер называет пайплайны очистки, фильтрации и синтеза данных.

«Медиа видят в разработке ИИ некое таинство, но в реальности большая часть работы инженеров в ИИ-компаниях — это банальная рутинная стирка и чистка терабайтов данных», — делится Мин Дин.

В качестве примера эволюции подходов Мин Дин приводит свою старую PhD-работу CogQA, призванную решать сложные многошаговые вопросы (multi-hop QA) по нескольким документам с помощью громоздких графовых нейросетей. Сегодня эта задача тривиально решается подачей всех документов в сверхдлинный контекст современной LLM с использованием стандартного Chain-of-Thought (цепочки рассуждений). Проблема алгоритмического уровня была полностью поглощена решением на уровне данных.

👁️ Мультимодальный прорыв: от картинок к веб-агентам 34:35

В области понимания изображений (Vision-Language Models) индустрия за год совершила тектонический сдвиг. Родоначальником коммерческого подхода Мин Дин считает модель BLIP-2, которая связывала замороженный энкодер CLIP и языковую модель через обучаемый модуль Q-former. Однако архитектурным стандартом стала более простая схема LLaVA, использующая обычный проекционный слой (projection weight) для трансформации визуальных фич в текстовые токены.

Собственная разработка команды Мин Дина — модель CogVLM — создавалась для решения фундаментальной проблемы: при обучении мультимодальности текстовые способности базовой LLM часто деградируют. Инженеры Zhipu AI внедрили концепцию Vision Experts — отдельные обучаемые веса в слоях внимания и MLP, которые обрабатывают исключительно визуальные токены, оставляя базовые языковые веса нетронутыми. Модель CogVLM стала хитом open-source, собрав более 500 000 скачиваний за месяц.

Ее развитие, модель CogAgent, использует кросс-внимание для обработки скриншотов в сверхвысоком разрешении без раздувания контекста LLM. Спикер продемонстрировал, как CogAgent работает в режиме полноценного веб-агента: анализирует интерфейс сайтов, понимает мелкие иконки и пошагово выполняет команды пользователя (например, ищет лучшие научные статьи или бронирует билеты).

Самая продвинутая коммерческая мультимодальная модель компании, GLM-4V, использует архитектуру со страйд-сверткой (stride convolution) вместо стандартного проектора LLaVA. По утверждению разработчиков, она работает на уровне GPT-4V, Gemini и Claude 3, радикально превосходя их в распознавании китайских иероглифов и сложных документов (OCR). Мин Дин продемонстрировал, как модель безошибочно расшифровывает сложнейшие рукописные чертежи-мемы, и пригласил всех бесплатно протестировать ее на платформе chatglm.cn.

🎨 Генерация медиаконтента: почему диффузия разгромила авторегрессию 44:05

В начале мультимодальной эры исследователи (включая команду Мин Дина с проектом CogView в 2021 году) пытались генерировать изображения авторегрессионно — точно так же, как текст. Картинка разбивалась через VQ-VAE токенизатор на дискретные токены, выстраивалась в цепочку «сначала текст, потом изображение», и трансформер предсказывал токен за токеном. По такой схеме создавались DALL-E от OpenAI и Parti от Google.

Однако концепция универсального авторегрессионного моделирования (когда одна сеть и понимает, и генерирует медиа) зашла в тупик. По словам спикера, дискретизация картинок приводит к катастрофической потере информации, из-за чего качество понимания у таких моделей хуже, чем у выделенных VLM, а генерация картинок идет неприемлемо медленно.

В итоге гонку генерации графики выиграли диффузионные модели (DDPM). Их ключевое преимущество — колоссальная скорость инференса за счет стопроцентной утилизации мощностей GPU. Авторегрессионная модель при генерации токена с размером батча равным единице фактически простаивает, тогда как диффузия прогоняет через тензорные ядра всю матрицу изображения за несколько шагов шумоподавления.

Для решения проблемы искажения шума на разных разрешениях (когда картинки одинакового уровня зашумления выглядят по-разному в низком и высоком разрешении) Zhipu AI разработала модель Relay Diffusion, использующую блочный шум (block noise) для сохранения частотных характеристик. На этой базе была создана быстрая коммерческая сеть CogView3.

В современных архитектурах генерации также доминируют трансформеры, вытеснившие старые UNet-структуры:

Комментируя успех модели Sora от OpenAI в генерации видео, Мин Дин отметил, что технологического чуда там нет — это масштабное скрещивание диффузионного трансформера и системной инфраструктуры больших языковых моделей. Эффект отсутствия мерцания (deflickering) достигается за счет хорошего 3D-энкодера, высокое разрешение — за счет Context Parallel, а реалистичная физика — результат тотального масштабирования вычислений и глубокой переразметки видеороликов.

🔮 Тренды на ближайшие годы и практические советы 1:00:23

По прогнозам Мин Дина, в ближайшие один-два года нас ждут следующие изменения на рынке ИИ:

Молодым ученым и студентам, у которых нет бюджетов уровня Zhipu AI или OpenAI, Мин Дин рекомендует сфокусироваться на создании качественных датасетов и бенчмарков для понимания видео — спрос на них в академической среде сейчас колоссальный. Также спикер советует обратить внимание на аудио- и речевые модели, которые незаслуженно обделены дефицитным вниманием исследователей и ресурсами GPU. Напоследок гость дал прикладной совет: «Если вы хотите делать прорывную науку в сфере ИИ, прямо сейчас найдите и подружитесь со студентами, которые учатся на системных инженеров (Systems PhD), потому что любой гениальный алгоритм сегодня обязан учитывать специфику работы современного «железа».

❓ Ответы на вопросы слушателей 1:08:02

В чем главная плата за использование сверхдлинных контекстных окон? Мин Дин: Главная плата — это время инференса. Процесс делится на две фазы: профилирование (загрузка гигантского контекста в движок) и декодинг (генерация ответов по токенам). Первая фаза может занимать от нескольких секунд до минуты. К счастью, в большинстве сценариев пользователю нужно скормить модели большую книгу, а на выходе получить короткий ответ. Подождать минуту ради этого вполне приемлемо.

Действительно ли архитектурные изыскания мертвы и все сфокусировались только на данных? Мин Дин: Данные, алгоритмы и архитектура взаимосвязаны. Вы можете заложить архитектурное смещение (inductive bias), можете написать алгоритм, а можете просто обучить модель на правильных данных вести себя нужным образом. Данные — это самый общий и простой способ решения специфических проблем, поэтому сейчас на них максимальный фокус. Но если кто-то найдет фундаментальный апгрейд для самого трансформера, который позволит ему еще эффективнее впитывать эти данные, это будет иметь колоссальную ценность.

Почему авторегрессия пространственно проигрывает диффузии в графике? Мин Дин: В авторегрессионной модели самый первый (левый верхний) пиксель и самый последний (правый нижний) разделены в цепочке тысячами токенов, трансформеру тяжело связывать их геометрию. В диффузионной модели все пиксели видят друг друга изначально на каждом шаге, поэтому сложные 2D-пространственные связи моделируются ею гораздо естественнее.

💬 Цитаты

«Эффективность модели в прикладных задачах связана исключительно с величиной потерь при предобучении.»

«Архитектура многослойного перцептрона не так важна, важнее системная инженерия и машинное обучение на больших системах.»

«Медиа видят в разработке ИИ некое таинство, но в реальности большая часть работы инженеров в ИИ-компаниях — это банальная рутинная стирка и чистка терабайтов данных.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RoPE
Метод ротационного позиционного кодирования токенов, улучшающий работу трансформера с длинными текстами.
GQA
Группировка запросов в механизме внимания, позволяющая экономить память видеокарты при генерации.
DPO
Прямая оптимизация предпочтений — метод настройки моделей под человека без создания сложной функции вознаграждения.
MoE
Архитектура смеси экспертов, активирующая под каждый токен только часть нейросети для экономии вычислений.
📊 Цифры
🗓 Хронология
  1. 2021 Разработка и публикация первой версии архитектуры CogView для генерации изображений.
  2. 2023 Выход InstructGPT и ChatGPT, доказавший дешевизну адаптации моделей под задачи.
⚖️ Другая сторона
Искусственный интеллект Zhipu AI Мин Дин CogVLM Transformers DeepSpeed