# Как китайский DeepSeek за $6 млн обошел миллиардные модели США

Источник: https://www.youtube.com/watch?v=WEBiebbeNCA
Канал: CNBC
Опубликовано: 24.01.2025

---

Китайская лаборатория DeepSeek потратила 5,6 миллиона долларов на обучение своей флагманской модели DeepSeek-V3. Эта сумма в тысячи раз меньше капитальных затрат Google, которая планирует потратить на инфраструктуру более 50 миллиардов долларов в 2024 году. Дейрдре Боза сообщает, что китайские разработчики создали продукт, превосходящий американские аналоги GPT-4o и Claude Sonnet 3.5 в сложных математических тестах и программировании.

## 🇨🇳 Технологический скачок DeepSeek
[[JUMP:00:47]]

DeepSeek выпустила бесплатную модель с открытым исходным кодом, которая вызвала панику в Кремниевой долине [00:53]. Разработчики из Китая потратили на обучение версии V3 всего два месяца [01:06]. Для сравнения: Microsoft инвестировала в OpenAI более 13 миллиардов долларов [01:32].

Аравинд Сринивас утверждает, что модель DeepSeek крайне эффективна с точки зрения вычислительных затрат [01:45]. Она обошла Meta Llama 3.1 и Anthropic Claude Sonnet 3.5 в тестах на исправление багов в коде и решение задач уровня математических олимпиад [02:11]. Новая модель рассуждений R1 также показала результаты наравне с o1 от OpenAI в бенчмарке Humanity's Last Exam [02:23].

Китай добился этих результатов вопреки санкциям США на поставку передовых чипов [02:48]. Вашингтон запретил экспорт мощных процессоров Nvidia H100 в Китай [03:01]. Сотрудники DeepSeek обошли ограничения, используя менее производительные чипы H800 [03:13]. Они доказали, что контроль над экспортом железа не стал тем препятствием, на которое рассчитывали власти США [03:27].

## 🕵️ Таинственная лаборатория и её методы
[[JUMP:03:40]]

Основатель DeepSeek Лян Вэньфэн остается малоизвестной фигурой для западного сообщества [03:40]. Лаборатория выросла из китайского хедж-фонда High Flyer Quant, который управляет активами на 8 миллиардов долларов [03:53]. В отличие от OpenAI и Anthropic, у DeepSeek нет детальных уставов по безопасности и этике ИИ [04:06].

Китайские компании активно используют существующие наработки для ускорения процесса:

*   Применяют метод дистилляции, когда большая модель обучает маленькую работать эффективнее [07:47].
*   Используют доступные наборы данных и вносят инновационные программные правки [07:59].
*   Копируют архитектурные принципы GPT, добавляя собственные улучшения [08:37].

Сэм Альтман в социальной сети X иронично заметил, что копировать работающие технологии легко, но сложно создавать новое [08:25]. Однако Аравинд Сринивас считает, что в этой индустрии все заимствуют идеи друг у друга [09:02]. Google создала архитектуру Transformer, которую позже успешно превратила в продукт компания OpenAI [09:14].

## 📉 Экономика ИИ: ловушка для денег
[[JUMP:10:54]]

Инвестиции в разработку гигантских языковых моделей становятся всё менее оправданными [10:43]. Чамат Палихапития называет создание моделей «денежной ловушкой» [10:54]. OpenAI привлекла 6 миллиардов долларов в последнем раунде, но до сих пор не приносит прибыли [09:28]. Компании вроде Google и Amazon имеют облачные сервисы и рекламные доходы, которые покрывают их расходы [09:41].

Стоимость обучения и использования моделей падает:

*   Исследователи из Беркли создали модель рассуждений всего за 450 долларов [10:05].
*   DeepSeek предлагает инференс (использование модели) по цене 10 центов за миллион токенов [12:05].
*   Это в 30 раз дешевле типичных расценок на сопоставимые модели в США [12:05].

Низкая стоимость привлекает разработчиков приложений, таких как Perplexity или You.com [12:17]. Переход на дешевые модели с открытым исходным кодом может подорвать лидерство США [12:44]. Если разработчики массово перейдут на китайские технологии, Китай захватит экосистему и умы специалистов [12:56].

## ⚠️ Риски и политический контроль
[[JUMP:13:35]]

Китайские модели обязаны воплощать «основные социалистические ценности» [13:35]. Исследования показывают, что ИИ от Tencent и Alibaba подвергается цензуре [13:48]. Модели замалчивают события на площади Тяньаньмэнь и фильтруют критику политических лидеров [13:48].

Существует риск, что DeepSeek может изменить условия лицензии в будущем [13:09]. Если американские разработчики будут полагаться только на открытый код из Китая, они потеряют независимость [13:22]. Поэтому существование американских альтернатив с открытым кодом, таких как Llama от Meta, становится критически важным [13:22].

## 🎙️ Интервью с Аравиндом Сринивасом
[[JUMP:15:05]]

Аравинд Сринивас отмечает, что недостаток ресурсов в Китае стал стимулом для изобретательности [15:46]. Инженеры DeepSeek внедрили архитектуру Mixture of Experts (MoE), которую трудно стабилизировать при обучении [18:38]. Они нашли математические решения для повышения стабильности без использования дополнительных «хаков» [19:04].

Технические достижения DeepSeek:

*   Обучение в 8-битном формате с плавающей запятой (FP8), что экономит память [19:17].
*   Стабильное обучение модели всего за 60 дней [19:42].
*   Использование 2048 графических процессоров H800, что эквивалентно примерно 1500 чипам H100 [17:32].

Perplexity уже начала интегрировать DeepSeek в свои сервисы для снижения затрат [23:12]. Сринивас считает, что эра простого масштабирования моделей (pre-training) подходит к концу [28:34]. Теперь конкуренция смещается в сторону времени рассуждений (test-time compute) [28:51].

Perplexity фокусируется на создании пользовательского интерфейса и надежных ответах с источниками [35:12]. Компания внедряет рекламную модель с оплатой за показы (CPM), чтобы сохранить объективность ответов [37:47]. Сринивас подчеркивает: рекламодатели понимают, что через 5–10 лет люди будут искать информацию через ИИ, а не через традиционные поисковики [39:30].