DeepSeek выпустила новую флагманскую модель V4, которая поддерживает контекстное окно объемом в 1 миллион токенов . Мэттью Берман утверждает: эта разработка способна лишить США лидерства в сфере искусственного интеллекта. Китайская компания создала продукт уровня передовых американских лабораторий, используя ограниченные вычислительные ресурсы и значительно меньшие бюджеты .
🛠 Технологический прорыв DeepSeek V4 1:32
DeepSeek представила модель в двух вариантах: Pro и Flash . Версия Pro содержит 1,6 триллиона параметров, из которых активными являются только 49 миллиардов . Такая структура называется Mixture of Experts (смесь экспертов). Она позволяет задействовать лишь малую часть нейросети для ответа на конкретный вопрос, что экономит вычислительную мощность .
Характеристики и возможности новых моделей:
- Масштаб обучения: обе версии обучали на массиве данных объемом 33 триллиона токенов .
- Производительность: DeepSeek V4 Flash имеет 284 миллиарда параметров (13 миллиардов активных) и позиционируется как быстрая «рабочая лошадка» .
- Навыки: модель демонстрирует способности к рассуждению и программированию на уровне Claude 3.7 Opus и GPT-5.5 .
В тестах MMLU Pro и GPQA Diamond китайская разработка лишь незначительно уступает лидерам рынка . По мнению Мэттью Бермана, для большинства коммерческих задач такая разница в производительности не имеет значения .
💰 Экономика эффективности и парадокс Джевонса 2:11
DeepSeek тратит на обучение моделей доли от тех сумм, которые вкладывают американские лаборатории . Это вызывает панику на фондовых рынках, так как инвесторы начинают сомневаться в оправданности огромных затрат на оборудование Nvidia .
Экономические аспекты модели:
- Стоимость: использование DeepSeek V4 стоит в разы дешевле американских аналогов .
- Парадокс Джевонса: при снижении стоимости ресурса спрос на него и объемы потребления только растут .
- Доступность: версия Flash предлагает производительность по цене «копейки за миллион токенов» .
Мэттью Берман указывает на график соотношения интеллекта и цены. DeepSeek V4 Pro находится в зоне высокой эффективности: почти такая же умная, как GPT-5.5, но намного доступнее .
🌐 Геополитика и экспортный контроль 7:18
США запрещают Nvidia продавать топовые чипы вроде GB300 в Китай напрямую . Несмотря на дефицит мощностей, китайские инженеры совершают алгоритмические прорывы . Они создают модели мирового уровня на «урезанных» графических процессорах .
Ситуация с ресурсами:
- Ограничение мощностей: DeepSeek признает нехватку вычислительных узлов для полноценного запуска версии Pro .
- Планы расширения: во второй половине года компания планирует запустить 950 суперузлов, что еще сильнее снизит стоимость использования модели .
- Импортозамещение: Китай активно разрабатывает собственные чипы, адаптируя их под свои открытые модели .
🛡 Обвинения в дистилляции данных 9:27
Anthropic недавно заявила, что китайские лаборатории проводят «дистилляционные атаки» . Это процесс, когда одну нейросеть обучают на ответах другой модели, фактически копируя её интеллектуальную собственность .
Факты об инциденте:
- Масштаб: у DeepSeek зафиксировано всего 150 000 обменов данными с моделями конкурентов .
- Сравнение: компании Moonshot и Minimax использовали миллионы диалогов для тех же целей .
- Контраргумент: небольшое количество запросов DeepSeek можно объяснить обычным тестированием (бенчмаркингом), а не кражей данных .
Мэттью Берман отмечает, что DeepSeek публикует подробные отчеты (white papers) о своей архитектуре . Это не вяжется с образом компании, которая просто копирует чужие наработки.
⚠️ Угроза для американского бизнеса 13:10
Главная проблема для США заключается в привлекательности китайских моделей для бизнеса. Американские компании и их союзники могут выбрать DeepSeek из-за открытого исходного кода и низкой цены .
Риски для США:
- Безопасность: зависимость от китайской архитектуры может позволить другой стране диктовать повестку или внезапно ограничить доступ к технологиям .
- Инвестиции: триллионы долларов вкладываются в инфраструктуру ИИ внутри США. Если бизнес перейдет на дешевые китайские аналоги, эти инвестиции не окупятся .
- Культурное влияние: если раньше западные соцсети контролировали нарратив, то теперь китайские модели могут определять, что пользователям допустимо обсуждать .
Мэттью Берман призывает американские компании активнее развивать открытое ПО и радикально снижать стоимость использования своих нейросетей . В противном случае преимущество в производстве чипов не поможет удержать лидерство .