# Технический разбор DeepSeek: почему китайская модель R1 стоит в разы дешевле аналогов

Источник: https://www.youtube.com/watch?v=4Tmn-XP93m4
Канал: Y Combinator
Опубликовано: 05.02.2025

---

Недавний анонс китайской нейросети DeepSeek R1 вызвал настоящую бурю в индустрии: от паники в социальных сетях до рыночного хаоса, в результате которого капитализация Nvidia в один момент сократилась почти на 600 миллиардов долларов. Пока широкая публика обсуждает «китайское чудо», инженеры и основатели стартапов анализируют серию технических решений, которые позволили команде из Пекина достичь производительности уровня OpenAI o1 за мизерную долю её стоимости.

## 🚀 Две стороны DeepSeek: модели V3 и R1
[[JUMP:01:08]]

Для понимания успеха DeepSeek необходимо разделять две ключевые модели, выпущенные компанией. По словам авторов видео, это принципиально разные продукты, решающие разные задачи [01:08]:

*   **DeepSeek V3:** Базовая модель общего назначения, выпущенная в декабре 2024 года. Она сопоставима по характеристикам с GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 от Google [01:22].
*   **DeepSeek R1:** Специализированная «рассуждающая» (reasoning) модель, представленная в конце января 2025 года. Она построена «поверх» V3 с применением алгоритмических улучшений для оптимизации процесса логического вывода [01:36].

R1 демонстрирует результаты, сравнимые с OpenAI o1 и Google Flash 2.0 в сложных бенчмарках на логику, математику и кодинг [02:02]. Однако авторы подчеркивают, что этот успех не был случайным — DeepSeek последовательно публиковала свои исследования в течение всего 2024 года, начиная с работы по математическим моделям в феврале и заканчивая архитектурными инновациями в мае [02:16].

## 🛠 Экстремальная оптимизация под давлением санкций
[[JUMP:02:44]]

Одной из главных причин эффективности DeepSeek стала работа в условиях аппаратных ограничений и экспортного контроля США на продажу современных GPU в Китай. Это вынудило инженеров компании искать способы выжать максимум из имеющихся мощностей [03:24].

Ключевые инженерные решения для повышения эффективности:

*   **Обучение в формате FP8:** Вместо стандартных 16-битных или 32-битных форматов, V3 обучалась на 8-битных числах с плавающей точкой. Это дало колоссальную экономию памяти без потери качества [02:44].
*   **Метод FP8 Accumulation Fix:** Чтобы избежать накопления численных ошибок при низком разрешении, расчеты периодически объединялись в высокоточном аккумуляторе FP32. Это позволило стабильно обучать модель на кластерах из тысяч GPU [02:57].
*   **Борьба с простоем GPU:** В типичных лабораториях GPU часто простаивают, ожидая передачи данных между узлами, а их реальная полезная нагрузка (MFU) составляет около 35% [03:38]. DeepSeek внедрила глубоко интегрированные решения для сетевого взаимодействия, чтобы минимизировать эти задержки [04:07].

По мнению авторов ролика, преимущество Nvidia всегда заключалось не только в чипах, но и в экосистеме (InfiniBand, CUDA), которая превращает кластер в «один гигантский GPU» [04:21]. DeepSeek фактически пришлось пересобрать часть этого стека, чтобы конкурировать на равных.

## 🧠 Архитектурные инновации: MoE, MLA и MTP
[[JUMP:04:36]]

DeepSeek V3 использует сложную архитектуру, которая радикально отличается от подхода Meta в моделях Llama.

### Mixture of Experts (MoE)
Модель V3 имеет 671 миллиард параметров, однако для генерации каждого отдельного токена активируются всего 37 миллиардов [04:51]. В качестве контраста приводится Llama 3 405B, которая активирует все свои параметры при каждом шаге, что требует в 11 раз больше вычислений на проход [05:03]. DeepSeek внедрила новые техники стабилизации MoE, что позволило повысить утилизацию GPU.

### Multi-head Latent Attention (MLA)
Одной из самых больших проблем больших моделей является объем кэша KV (Key-Value), который забивает видеопамять. Технология MLA, представленная DeepSeek в мае 2024 года, сжимает эти данные в латентное представление и восстанавливает их только по необходимости [05:59]. Это позволило сократить размер кэша на 93,3% и увеличить пропускную способность генерации в 5,76 раза [06:12].

### Multi-token Prediction (MTP)
В отличие от классических моделей, предсказывающих только одно следующее слово, V3 обучалась предсказывать сразу несколько будущих токенов. Это «уплотняет» сигнал обучения и позволяет модели лучше планировать последовательность вывода, делая ответы более связными [06:39].

## 🧬 Секрет R1: Обучение с подкреплением (RL)
[[JUMP:07:34]]

Основная ценность DeepSeek R1 — в обучении модели «думать» шагами перед тем, как дать окончательный ответ. Если обычные LLM можно просто попросить «думать пошагово», то R1 специально натренирована выдавать целые абзацы рассуждений [07:21].

В основе лежит метод Reinforcement Learning (RL). В отличие от OpenAI, которая держит свои методы в секрете, DeepSeek опубликовала детали своего процесса:

1.  **Проверка ответов по правилам:** Для задач по математике и программированию DeepSeek использовала не сложную ИИ-оценку, а простые правила проверки точности и формата вывода [08:46].
2.  **GRPO (Group Relative Policy Optimization):** Это новая техника оптимизации, представленная компанией в феврале 2024 года, которая позволила модели обучаться рассуждениям самостоятельно [08:58].
3.  **Эффект «Эврики»:** В процессе чистого RL-обучения (модель R1-Zero) инженеры заметили появление навыков самокоррекции. Модель научилась распознавать свои ошибки в процессе рассуждения и возвращаться назад, чтобы исправить их [09:11].

Однако у «чистого» RL-подхода (R1-Zero) была проблема: модель постоянно смешивала китайский и английский языки и её рассуждения было трудно читать [10:04]. Для финальной версии R1 компания ввела этап «холодного старта», предварительно дообучив модель на структурированных примерах рассуждений, созданных людьми, чтобы задать верный тон и язык [10:19].

## 💰 Мифы о стоимости и будущее индустрии
[[JUMP:11:11]]

Вокруг DeepSeek возникло много споров касательно стоимости обучения. Цифра в 5,5 миллионов долларов за обучение V3 стала вирусной, но авторы видео призывают к осторожности [11:11]:

*   **Уточнение по бюджету:** 5,5 млн долларов — это, скорее всего, стоимость только финального прогона обучения. Она не включает затраты на R1, годы R&D и амортизацию оборудования, которые, по оценкам, исчисляются сотнями миллионов долларов [11:40].
*   **Воспроизводимость:** Тем не менее, работа DeepSeek доказывает возможность эффективного обучения. Лаборатория в Беркли уже смогла воспроизвести ключевые техники R1 на маленькой модели всего за 30 долларов [11:53].

В завершение Гарри Тан и команда Y Combinator отмечают, что успех DeepSeek — это отличная новость для стартапов [12:21]. Это доказывает, что на переднем крае ИИ всё еще есть место для новых игроков, которые могут побеждать за счет оптимизации стека, улучшения софта и создания специализированных ядер (kernels) [12:21]. Снижение стоимости «единицы интеллекта» открывает новые возможности для B2B и потребительских приложений.