Технический разбор DeepSeek: почему китайская модель R1 стоит в разы дешевле аналогов

Недавний анонс китайской нейросети DeepSeek R1 вызвал настоящую бурю в индустрии: от паники в социальных сетях до рыночного хаоса, в результате которого капитализация Nvidia в один момент сократилась почти на 600 миллиардов долларов. Пока широкая публика обсуждает «китайское чудо», инженеры и основатели стартапов анализируют серию технических решений, которые позволили команде из Пекина достичь производительности уровня OpenAI o1 за мизерную долю её стоимости.

🚀 Две стороны DeepSeek: модели V3 и R1 1:08

Для понимания успеха DeepSeek необходимо разделять две ключевые модели, выпущенные компанией. По словам авторов видео, это принципиально разные продукты, решающие разные задачи :

DeepSeek V3: Базовая модель общего назначения, выпущенная в декабре 2024 года. Она сопоставима по характеристикам с GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 от Google .
DeepSeek R1: Специализированная «рассуждающая» (reasoning) модель, представленная в конце января 2025 года. Она построена «поверх» V3 с применением алгоритмических улучшений для оптимизации процесса логического вывода .

R1 демонстрирует результаты, сравнимые с OpenAI o1 и Google Flash 2.0 в сложных бенчмарках на логику, математику и кодинг . Однако авторы подчеркивают, что этот успех не был случайным — DeepSeek последовательно публиковала свои исследования в течение всего 2024 года, начиная с работы по математическим моделям в феврале и заканчивая архитектурными инновациями в мае .

🛠 Экстремальная оптимизация под давлением санкций 2:44

Одной из главных причин эффективности DeepSeek стала работа в условиях аппаратных ограничений и экспортного контроля США на продажу современных GPU в Китай. Это вынудило инженеров компании искать способы выжать максимум из имеющихся мощностей .

Ключевые инженерные решения для повышения эффективности:

Обучение в формате FP8: Вместо стандартных 16-битных или 32-битных форматов, V3 обучалась на 8-битных числах с плавающей точкой. Это дало колоссальную экономию памяти без потери качества .
Метод FP8 Accumulation Fix: Чтобы избежать накопления численных ошибок при низком разрешении, расчеты периодически объединялись в высокоточном аккумуляторе FP32. Это позволило стабильно обучать модель на кластерах из тысяч GPU .
Борьба с простоем GPU: В типичных лабораториях GPU часто простаивают, ожидая передачи данных между узлами, а их реальная полезная нагрузка (MFU) составляет около 35% . DeepSeek внедрила глубоко интегрированные решения для сетевого взаимодействия, чтобы минимизировать эти задержки .

По мнению авторов ролика, преимущество Nvidia всегда заключалось не только в чипах, но и в экосистеме (InfiniBand, CUDA), которая превращает кластер в «один гигантский GPU» . DeepSeek фактически пришлось пересобрать часть этого стека, чтобы конкурировать на равных.

🧠 Архитектурные инновации: MoE, MLA и MTP 4:36

DeepSeek V3 использует сложную архитектуру, которая радикально отличается от подхода Meta в моделях Llama.

Mixture of Experts (MoE)

Модель V3 имеет 671 миллиард параметров, однако для генерации каждого отдельного токена активируются всего 37 миллиардов . В качестве контраста приводится Llama 3 405B, которая активирует все свои параметры при каждом шаге, что требует в 11 раз больше вычислений на проход . DeepSeek внедрила новые техники стабилизации MoE, что позволило повысить утилизацию GPU.

Multi-head Latent Attention (MLA)

Одной из самых больших проблем больших моделей является объем кэша KV (Key-Value), который забивает видеопамять. Технология MLA, представленная DeepSeek в мае 2024 года, сжимает эти данные в латентное представление и восстанавливает их только по необходимости . Это позволило сократить размер кэша на 93,3% и увеличить пропускную способность генерации в 5,76 раза .

Multi-token Prediction (MTP)

В отличие от классических моделей, предсказывающих только одно следующее слово, V3 обучалась предсказывать сразу несколько будущих токенов. Это «уплотняет» сигнал обучения и позволяет модели лучше планировать последовательность вывода, делая ответы более связными .

🧬 Секрет R1: Обучение с подкреплением (RL) 7:34

Основная ценность DeepSeek R1 — в обучении модели «думать» шагами перед тем, как дать окончательный ответ. Если обычные LLM можно просто попросить «думать пошагово», то R1 специально натренирована выдавать целые абзацы рассуждений .

В основе лежит метод Reinforcement Learning (RL). В отличие от OpenAI, которая держит свои методы в секрете, DeepSeek опубликовала детали своего процесса:

Проверка ответов по правилам: Для задач по математике и программированию DeepSeek использовала не сложную ИИ-оценку, а простые правила проверки точности и формата вывода .
GRPO (Group Relative Policy Optimization): Это новая техника оптимизации, представленная компанией в феврале 2024 года, которая позволила модели обучаться рассуждениям самостоятельно .
Эффект «Эврики»: В процессе чистого RL-обучения (модель R1-Zero) инженеры заметили появление навыков самокоррекции. Модель научилась распознавать свои ошибки в процессе рассуждения и возвращаться назад, чтобы исправить их .

Однако у «чистого» RL-подхода (R1-Zero) была проблема: модель постоянно смешивала китайский и английский языки и её рассуждения было трудно читать . Для финальной версии R1 компания ввела этап «холодного старта», предварительно дообучив модель на структурированных примерах рассуждений, созданных людьми, чтобы задать верный тон и язык .

💰 Мифы о стоимости и будущее индустрии 11:11

Вокруг DeepSeek возникло много споров касательно стоимости обучения. Цифра в 5,5 миллионов долларов за обучение V3 стала вирусной, но авторы видео призывают к осторожности :

Уточнение по бюджету: 5,5 млн долларов — это, скорее всего, стоимость только финального прогона обучения. Она не включает затраты на R1, годы R&D и амортизацию оборудования, которые, по оценкам, исчисляются сотнями миллионов долларов .
Воспроизводимость: Тем не менее, работа DeepSeek доказывает возможность эффективного обучения. Лаборатория в Беркли уже смогла воспроизвести ключевые техники R1 на маленькой модели всего за 30 долларов .

В завершение Гарри Тан и команда Y Combinator отмечают, что успех DeepSeek — это отличная новость для стартапов . Это доказывает, что на переднем крае ИИ всё еще есть место для новых игроков, которые могут побеждать за счет оптимизации стека, улучшения софта и создания специализированных ядер (kernels) . Снижение стоимости «единицы интеллекта» открывает новые возможности для B2B и потребительских приложений.