Как китайский DeepSeek за $6 млн обошел миллиардные модели США

Китайская лаборатория DeepSeek потратила 5,6 миллиона долларов на обучение своей флагманской модели DeepSeek-V3. Эта сумма в тысячи раз меньше капитальных затрат Google, которая планирует потратить на инфраструктуру более 50 миллиардов долларов в 2024 году. Дейрдре Боза сообщает, что китайские разработчики создали продукт, превосходящий американские аналоги GPT-4o и Claude Sonnet 3.5 в сложных математических тестах и программировании.

🇨🇳 Технологический скачок DeepSeek 0:47

DeepSeek выпустила бесплатную модель с открытым исходным кодом, которая вызвала панику в Кремниевой долине . Разработчики из Китая потратили на обучение версии V3 всего два месяца . Для сравнения: Microsoft инвестировала в OpenAI более 13 миллиардов долларов .

Аравинд Сринивас утверждает, что модель DeepSeek крайне эффективна с точки зрения вычислительных затрат . Она обошла Meta Llama 3.1 и Anthropic Claude Sonnet 3.5 в тестах на исправление багов в коде и решение задач уровня математических олимпиад . Новая модель рассуждений R1 также показала результаты наравне с o1 от OpenAI в бенчмарке Humanity's Last Exam .

Китай добился этих результатов вопреки санкциям США на поставку передовых чипов . Вашингтон запретил экспорт мощных процессоров Nvidia H100 в Китай . Сотрудники DeepSeek обошли ограничения, используя менее производительные чипы H800 . Они доказали, что контроль над экспортом железа не стал тем препятствием, на которое рассчитывали власти США .

🕵️ Таинственная лаборатория и её методы 3:40

Основатель DeepSeek Лян Вэньфэн остается малоизвестной фигурой для западного сообщества . Лаборатория выросла из китайского хедж-фонда High Flyer Quant, который управляет активами на 8 миллиардов долларов . В отличие от OpenAI и Anthropic, у DeepSeek нет детальных уставов по безопасности и этике ИИ .

Китайские компании активно используют существующие наработки для ускорения процесса:

Применяют метод дистилляции, когда большая модель обучает маленькую работать эффективнее .
Используют доступные наборы данных и вносят инновационные программные правки .
Копируют архитектурные принципы GPT, добавляя собственные улучшения .

Сэм Альтман в социальной сети X иронично заметил, что копировать работающие технологии легко, но сложно создавать новое . Однако Аравинд Сринивас считает, что в этой индустрии все заимствуют идеи друг у друга . Google создала архитектуру Transformer, которую позже успешно превратила в продукт компания OpenAI .

📉 Экономика ИИ: ловушка для денег 10:54

Инвестиции в разработку гигантских языковых моделей становятся всё менее оправданными . Чамат Палихапития называет создание моделей «денежной ловушкой» . OpenAI привлекла 6 миллиардов долларов в последнем раунде, но до сих пор не приносит прибыли . Компании вроде Google и Amazon имеют облачные сервисы и рекламные доходы, которые покрывают их расходы .

Стоимость обучения и использования моделей падает:

Исследователи из Беркли создали модель рассуждений всего за 450 долларов .
DeepSeek предлагает инференс (использование модели) по цене 10 центов за миллион токенов .
Это в 30 раз дешевле типичных расценок на сопоставимые модели в США .

Низкая стоимость привлекает разработчиков приложений, таких как Perplexity или You.com . Переход на дешевые модели с открытым исходным кодом может подорвать лидерство США . Если разработчики массово перейдут на китайские технологии, Китай захватит экосистему и умы специалистов .

⚠️ Риски и политический контроль 13:35

Китайские модели обязаны воплощать «основные социалистические ценности» . Исследования показывают, что ИИ от Tencent и Alibaba подвергается цензуре . Модели замалчивают события на площади Тяньаньмэнь и фильтруют критику политических лидеров .

Существует риск, что DeepSeek может изменить условия лицензии в будущем . Если американские разработчики будут полагаться только на открытый код из Китая, они потеряют независимость . Поэтому существование американских альтернатив с открытым кодом, таких как Llama от Meta, становится критически важным .

🎙️ Интервью с Аравиндом Сринивасом 15:05

Аравинд Сринивас отмечает, что недостаток ресурсов в Китае стал стимулом для изобретательности . Инженеры DeepSeek внедрили архитектуру Mixture of Experts (MoE), которую трудно стабилизировать при обучении . Они нашли математические решения для повышения стабильности без использования дополнительных «хаков» .

Технические достижения DeepSeek:

Обучение в 8-битном формате с плавающей запятой (FP8), что экономит память .
Стабильное обучение модели всего за 60 дней .
Использование 2048 графических процессоров H800, что эквивалентно примерно 1500 чипам H100 .

Perplexity уже начала интегрировать DeepSeek в свои сервисы для снижения затрат . Сринивас считает, что эра простого масштабирования моделей (pre-training) подходит к концу . Теперь конкуренция смещается в сторону времени рассуждений (test-time compute) .

Perplexity фокусируется на создании пользовательского интерфейса и надежных ответах с источниками . Компания внедряет рекламную модель с оплатой за показы (CPM), чтобы сохранить объективность ответов . Сринивас подчеркивает: рекламодатели понимают, что через 5–10 лет люди будут искать информацию через ИИ, а не через традиционные поисковики .