Как китайский DeepSeek за $6 млн обошел миллиардные модели США

CNBC 6 млн 40 мин 4 мин 24.01.2025
Главное

Китайская лаборатория DeepSeek потратила 5,6 миллиона долларов на обучение своей флагманской модели DeepSeek-V3. Эта сумма в тысячи раз меньше капитальных затрат Google, которая планирует потратить на инфраструктуру более 50 миллиардов долларов в 2024 году. Дейрдре Боза сообщает, что китайские разработчики создали продукт, превосходящий американские аналоги GPT-4o и Claude Sonnet 3.5 в сложных математических тестах и программировании.

🇨🇳 Технологический скачок DeepSeek 0:47

DeepSeek выпустила бесплатную модель с открытым исходным кодом, которая вызвала панику в Кремниевой долине . Разработчики из Китая потратили на обучение версии V3 всего два месяца . Для сравнения: Microsoft инвестировала в OpenAI более 13 миллиардов долларов .

Аравинд Сринивас утверждает, что модель DeepSeek крайне эффективна с точки зрения вычислительных затрат . Она обошла Meta Llama 3.1 и Anthropic Claude Sonnet 3.5 в тестах на исправление багов в коде и решение задач уровня математических олимпиад . Новая модель рассуждений R1 также показала результаты наравне с o1 от OpenAI в бенчмарке Humanity's Last Exam .

Китай добился этих результатов вопреки санкциям США на поставку передовых чипов . Вашингтон запретил экспорт мощных процессоров Nvidia H100 в Китай . Сотрудники DeepSeek обошли ограничения, используя менее производительные чипы H800 . Они доказали, что контроль над экспортом железа не стал тем препятствием, на которое рассчитывали власти США .

🕵️ Таинственная лаборатория и её методы 3:40

Основатель DeepSeek Лян Вэньфэн остается малоизвестной фигурой для западного сообщества . Лаборатория выросла из китайского хедж-фонда High Flyer Quant, который управляет активами на 8 миллиардов долларов . В отличие от OpenAI и Anthropic, у DeepSeek нет детальных уставов по безопасности и этике ИИ .

Китайские компании активно используют существующие наработки для ускорения процесса:

Сэм Альтман в социальной сети X иронично заметил, что копировать работающие технологии легко, но сложно создавать новое . Однако Аравинд Сринивас считает, что в этой индустрии все заимствуют идеи друг у друга . Google создала архитектуру Transformer, которую позже успешно превратила в продукт компания OpenAI .

📉 Экономика ИИ: ловушка для денег 10:54

Инвестиции в разработку гигантских языковых моделей становятся всё менее оправданными . Чамат Палихапития называет создание моделей «денежной ловушкой» . OpenAI привлекла 6 миллиардов долларов в последнем раунде, но до сих пор не приносит прибыли . Компании вроде Google и Amazon имеют облачные сервисы и рекламные доходы, которые покрывают их расходы .

Стоимость обучения и использования моделей падает:

Низкая стоимость привлекает разработчиков приложений, таких как Perplexity или You.com . Переход на дешевые модели с открытым исходным кодом может подорвать лидерство США . Если разработчики массово перейдут на китайские технологии, Китай захватит экосистему и умы специалистов .

⚠️ Риски и политический контроль 13:35

Китайские модели обязаны воплощать «основные социалистические ценности» . Исследования показывают, что ИИ от Tencent и Alibaba подвергается цензуре . Модели замалчивают события на площади Тяньаньмэнь и фильтруют критику политических лидеров .

Существует риск, что DeepSeek может изменить условия лицензии в будущем . Если американские разработчики будут полагаться только на открытый код из Китая, они потеряют независимость . Поэтому существование американских альтернатив с открытым кодом, таких как Llama от Meta, становится критически важным .

🎙️ Интервью с Аравиндом Сринивасом 15:05

Аравинд Сринивас отмечает, что недостаток ресурсов в Китае стал стимулом для изобретательности . Инженеры DeepSeek внедрили архитектуру Mixture of Experts (MoE), которую трудно стабилизировать при обучении . Они нашли математические решения для повышения стабильности без использования дополнительных «хаков» .

Технические достижения DeepSeek:

Perplexity уже начала интегрировать DeepSeek в свои сервисы для снижения затрат . Сринивас считает, что эра простого масштабирования моделей (pre-training) подходит к концу . Теперь конкуренция смещается в сторону времени рассуждений (test-time compute) .

Perplexity фокусируется на создании пользовательского интерфейса и надежных ответах с источниками . Компания внедряет рекламную модель с оплатой за показы (CPM), чтобы сохранить объективность ответов . Сринивас подчеркивает: рекламодатели понимают, что через 5–10 лет люди будут искать информацию через ИИ, а не через традиционные поисковики .

💬 Цитаты

«Позвольте мне сказать вслух то, о чем молчат: создание ИИ-моделей — это денежная ловушка.»

Чамат Палихапития 10:43

«Необходимость — мать изобретения. Поскольку им пришлось искать обходные пути, они создали нечто более эффективное.»

Аравинд Сринивас 11:10

«Китай догнал нас за последние шесть месяцев невероятным образом.»

Эрик Шмидт 05:50
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Инференс
Процесс использования уже обученной нейросети для получения ответов на запросы пользователей.
Дистилляция
Метод обучения, при котором знания от крупной и сложной модели передаются более компактной и эффективной.
Mixture of Experts (MoE)
Архитектура нейросети, состоящая из набора специализированных подсетей («экспертов»), из которых для каждого запроса активируется только часть.
FP8
8-битный формат представления чисел с плавающей запятой, позволяющий экономить память и ускорять обучение ИИ.
Токен
Минимальная единица текста (слово или часть слова), которую обрабатывает языковая модель.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2022 OpenAI выпускает ChatGPT, открывая эру современных чат-ботов.
  2. Начало 2024 Эрик Шмидт прогнозирует отставание Китая от США в сфере ИИ на 2-3 года.
  3. Декабрь 2024 DeepSeek выпускает модель V3 с открытым исходным кодом.
  4. Январь 2025 Эрик Шмидт признает, что Китай догнал США в области ИИ.
⚖️ Другая сторона
Искусственный интеллект DeepSeek Perplexity OpenAI Meta Llama 3.1