Недавний анонс китайской нейросети DeepSeek R1 вызвал настоящую бурю в индустрии: от паники в социальных сетях до рыночного хаоса, в результате которого капитализация Nvidia в один момент сократилась почти на 600 миллиардов долларов. Пока широкая публика обсуждает «китайское чудо», инженеры и основатели стартапов анализируют серию технических решений, которые позволили команде из Пекина достичь производительности уровня OpenAI o1 за мизерную долю её стоимости.
🚀 Две стороны DeepSeek: модели V3 и R1 1:08
Для понимания успеха DeepSeek необходимо разделять две ключевые модели, выпущенные компанией. По словам авторов видео, это принципиально разные продукты, решающие разные задачи :
- DeepSeek V3: Базовая модель общего назначения, выпущенная в декабре 2024 года. Она сопоставима по характеристикам с GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 от Google .
- DeepSeek R1: Специализированная «рассуждающая» (reasoning) модель, представленная в конце января 2025 года. Она построена «поверх» V3 с применением алгоритмических улучшений для оптимизации процесса логического вывода .
R1 демонстрирует результаты, сравнимые с OpenAI o1 и Google Flash 2.0 в сложных бенчмарках на логику, математику и кодинг . Однако авторы подчеркивают, что этот успех не был случайным — DeepSeek последовательно публиковала свои исследования в течение всего 2024 года, начиная с работы по математическим моделям в феврале и заканчивая архитектурными инновациями в мае .
🛠 Экстремальная оптимизация под давлением санкций 2:44
Одной из главных причин эффективности DeepSeek стала работа в условиях аппаратных ограничений и экспортного контроля США на продажу современных GPU в Китай. Это вынудило инженеров компании искать способы выжать максимум из имеющихся мощностей .
Ключевые инженерные решения для повышения эффективности:
- Обучение в формате FP8: Вместо стандартных 16-битных или 32-битных форматов, V3 обучалась на 8-битных числах с плавающей точкой. Это дало колоссальную экономию памяти без потери качества .
- Метод FP8 Accumulation Fix: Чтобы избежать накопления численных ошибок при низком разрешении, расчеты периодически объединялись в высокоточном аккумуляторе FP32. Это позволило стабильно обучать модель на кластерах из тысяч GPU .
- Борьба с простоем GPU: В типичных лабораториях GPU часто простаивают, ожидая передачи данных между узлами, а их реальная полезная нагрузка (MFU) составляет около 35% . DeepSeek внедрила глубоко интегрированные решения для сетевого взаимодействия, чтобы минимизировать эти задержки .
По мнению авторов ролика, преимущество Nvidia всегда заключалось не только в чипах, но и в экосистеме (InfiniBand, CUDA), которая превращает кластер в «один гигантский GPU» . DeepSeek фактически пришлось пересобрать часть этого стека, чтобы конкурировать на равных.
🧠 Архитектурные инновации: MoE, MLA и MTP 4:36
DeepSeek V3 использует сложную архитектуру, которая радикально отличается от подхода Meta в моделях Llama.
Mixture of Experts (MoE)
Модель V3 имеет 671 миллиард параметров, однако для генерации каждого отдельного токена активируются всего 37 миллиардов . В качестве контраста приводится Llama 3 405B, которая активирует все свои параметры при каждом шаге, что требует в 11 раз больше вычислений на проход . DeepSeek внедрила новые техники стабилизации MoE, что позволило повысить утилизацию GPU.
Multi-head Latent Attention (MLA)
Одной из самых больших проблем больших моделей является объем кэша KV (Key-Value), который забивает видеопамять. Технология MLA, представленная DeepSeek в мае 2024 года, сжимает эти данные в латентное представление и восстанавливает их только по необходимости . Это позволило сократить размер кэша на 93,3% и увеличить пропускную способность генерации в 5,76 раза .
Multi-token Prediction (MTP)
В отличие от классических моделей, предсказывающих только одно следующее слово, V3 обучалась предсказывать сразу несколько будущих токенов. Это «уплотняет» сигнал обучения и позволяет модели лучше планировать последовательность вывода, делая ответы более связными .
🧬 Секрет R1: Обучение с подкреплением (RL) 7:34
Основная ценность DeepSeek R1 — в обучении модели «думать» шагами перед тем, как дать окончательный ответ. Если обычные LLM можно просто попросить «думать пошагово», то R1 специально натренирована выдавать целые абзацы рассуждений .
В основе лежит метод Reinforcement Learning (RL). В отличие от OpenAI, которая держит свои методы в секрете, DeepSeek опубликовала детали своего процесса:
- Проверка ответов по правилам: Для задач по математике и программированию DeepSeek использовала не сложную ИИ-оценку, а простые правила проверки точности и формата вывода .
- GRPO (Group Relative Policy Optimization): Это новая техника оптимизации, представленная компанией в феврале 2024 года, которая позволила модели обучаться рассуждениям самостоятельно .
- Эффект «Эврики»: В процессе чистого RL-обучения (модель R1-Zero) инженеры заметили появление навыков самокоррекции. Модель научилась распознавать свои ошибки в процессе рассуждения и возвращаться назад, чтобы исправить их .
Однако у «чистого» RL-подхода (R1-Zero) была проблема: модель постоянно смешивала китайский и английский языки и её рассуждения было трудно читать . Для финальной версии R1 компания ввела этап «холодного старта», предварительно дообучив модель на структурированных примерах рассуждений, созданных людьми, чтобы задать верный тон и язык .
💰 Мифы о стоимости и будущее индустрии 11:11
Вокруг DeepSeek возникло много споров касательно стоимости обучения. Цифра в 5,5 миллионов долларов за обучение V3 стала вирусной, но авторы видео призывают к осторожности :
- Уточнение по бюджету: 5,5 млн долларов — это, скорее всего, стоимость только финального прогона обучения. Она не включает затраты на R1, годы R&D и амортизацию оборудования, которые, по оценкам, исчисляются сотнями миллионов долларов .
- Воспроизводимость: Тем не менее, работа DeepSeek доказывает возможность эффективного обучения. Лаборатория в Беркли уже смогла воспроизвести ключевые техники R1 на маленькой модели всего за 30 долларов .
В завершение Гарри Тан и команда Y Combinator отмечают, что успех DeepSeek — это отличная новость для стартапов . Это доказывает, что на переднем крае ИИ всё еще есть место для новых игроков, которые могут побеждать за счет оптимизации стека, улучшения софта и создания специализированных ядер (kernels) . Снижение стоимости «единицы интеллекта» открывает новые возможности для B2B и потребительских приложений.