Технический разбор DeepSeek: почему китайская модель R1 стоит в разы дешевле аналогов

Y Combinator 212 тыс. 13 мин 5 мин 05.02.2025
Главное

Недавний анонс китайской нейросети DeepSeek R1 вызвал настоящую бурю в индустрии: от паники в социальных сетях до рыночного хаоса, в результате которого капитализация Nvidia в один момент сократилась почти на 600 миллиардов долларов. Пока широкая публика обсуждает «китайское чудо», инженеры и основатели стартапов анализируют серию технических решений, которые позволили команде из Пекина достичь производительности уровня OpenAI o1 за мизерную долю её стоимости.

🚀 Две стороны DeepSeek: модели V3 и R1 1:08

Для понимания успеха DeepSeek необходимо разделять две ключевые модели, выпущенные компанией. По словам авторов видео, это принципиально разные продукты, решающие разные задачи :

R1 демонстрирует результаты, сравнимые с OpenAI o1 и Google Flash 2.0 в сложных бенчмарках на логику, математику и кодинг . Однако авторы подчеркивают, что этот успех не был случайным — DeepSeek последовательно публиковала свои исследования в течение всего 2024 года, начиная с работы по математическим моделям в феврале и заканчивая архитектурными инновациями в мае .

🛠 Экстремальная оптимизация под давлением санкций 2:44

Одной из главных причин эффективности DeepSeek стала работа в условиях аппаратных ограничений и экспортного контроля США на продажу современных GPU в Китай. Это вынудило инженеров компании искать способы выжать максимум из имеющихся мощностей .

Ключевые инженерные решения для повышения эффективности:

По мнению авторов ролика, преимущество Nvidia всегда заключалось не только в чипах, но и в экосистеме (InfiniBand, CUDA), которая превращает кластер в «один гигантский GPU» . DeepSeek фактически пришлось пересобрать часть этого стека, чтобы конкурировать на равных.

🧠 Архитектурные инновации: MoE, MLA и MTP 4:36

DeepSeek V3 использует сложную архитектуру, которая радикально отличается от подхода Meta в моделях Llama.

Mixture of Experts (MoE)

Модель V3 имеет 671 миллиард параметров, однако для генерации каждого отдельного токена активируются всего 37 миллиардов . В качестве контраста приводится Llama 3 405B, которая активирует все свои параметры при каждом шаге, что требует в 11 раз больше вычислений на проход . DeepSeek внедрила новые техники стабилизации MoE, что позволило повысить утилизацию GPU.

Multi-head Latent Attention (MLA)

Одной из самых больших проблем больших моделей является объем кэша KV (Key-Value), который забивает видеопамять. Технология MLA, представленная DeepSeek в мае 2024 года, сжимает эти данные в латентное представление и восстанавливает их только по необходимости . Это позволило сократить размер кэша на 93,3% и увеличить пропускную способность генерации в 5,76 раза .

Multi-token Prediction (MTP)

В отличие от классических моделей, предсказывающих только одно следующее слово, V3 обучалась предсказывать сразу несколько будущих токенов. Это «уплотняет» сигнал обучения и позволяет модели лучше планировать последовательность вывода, делая ответы более связными .

🧬 Секрет R1: Обучение с подкреплением (RL) 7:34

Основная ценность DeepSeek R1 — в обучении модели «думать» шагами перед тем, как дать окончательный ответ. Если обычные LLM можно просто попросить «думать пошагово», то R1 специально натренирована выдавать целые абзацы рассуждений .

В основе лежит метод Reinforcement Learning (RL). В отличие от OpenAI, которая держит свои методы в секрете, DeepSeek опубликовала детали своего процесса:

  1. Проверка ответов по правилам: Для задач по математике и программированию DeepSeek использовала не сложную ИИ-оценку, а простые правила проверки точности и формата вывода .
  2. GRPO (Group Relative Policy Optimization): Это новая техника оптимизации, представленная компанией в феврале 2024 года, которая позволила модели обучаться рассуждениям самостоятельно .
  3. Эффект «Эврики»: В процессе чистого RL-обучения (модель R1-Zero) инженеры заметили появление навыков самокоррекции. Модель научилась распознавать свои ошибки в процессе рассуждения и возвращаться назад, чтобы исправить их .

Однако у «чистого» RL-подхода (R1-Zero) была проблема: модель постоянно смешивала китайский и английский языки и её рассуждения было трудно читать . Для финальной версии R1 компания ввела этап «холодного старта», предварительно дообучив модель на структурированных примерах рассуждений, созданных людьми, чтобы задать верный тон и язык .

💰 Мифы о стоимости и будущее индустрии 11:11

Вокруг DeepSeek возникло много споров касательно стоимости обучения. Цифра в 5,5 миллионов долларов за обучение V3 стала вирусной, но авторы видео призывают к осторожности :

В завершение Гарри Тан и команда Y Combinator отмечают, что успех DeepSeek — это отличная новость для стартапов . Это доказывает, что на переднем крае ИИ всё еще есть место для новых игроков, которые могут побеждать за счет оптимизации стека, улучшения софта и создания специализированных ядер (kernels) . Снижение стоимости «единицы интеллекта» открывает новые возможности для B2B и потребительских приложений.

💬 Цитаты

«DeepSeek доказывает, что всё еще есть место для новых игроков на переднем крае ИИ.»

Гарри Тан 12:09

«В процессе обучения модель испытала «ага-момент», когда она осознала свои ошибки и вернулась, чтобы исправить рассуждения.»

Гарри Тан 09:11
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
FP8
8-битный формат чисел с плавающей точкой, используемый для экономии памяти при обучении нейросетей.
Mixture of Experts (MoE)
Архитектура нейросети, где для каждой задачи активируется только подмножество специализированных слоев (экспертов).
KV Cache
Механизм хранения промежуточных данных внимания, который ускоряет генерацию текста, но требует много видеопамяти.
Reinforcement Learning (RL)
Метод обучения ИИ, основанный на получении наград за правильные действия и штрафов за ошибки.
📊 Цифры
🗓 Хронология
  1. Февраль 2024 Публикация статьи DeepSeek Math и представление метода GRPO.
  2. Май 2024 Выход модели DeepSeek V2 и анонс технологии MLA.
  3. Декабрь 2024 Релиз базовой модели DeepSeek V3.
  4. Январь 2025 Релиз рассуждающей модели DeepSeek R1.
⚖️ Другая сторона
Искусственный интеллект DeepSeek DeepSeek R1 Garry Tan Y Combinator Nvidia