DeepSeek V4: конец американского доминирования в ИИ?

DeepSeek выпустила новую флагманскую модель V4, которая поддерживает контекстное окно объемом в 1 миллион токенов . Мэттью Берман утверждает: эта разработка способна лишить США лидерства в сфере искусственного интеллекта. Китайская компания создала продукт уровня передовых американских лабораторий, используя ограниченные вычислительные ресурсы и значительно меньшие бюджеты .

🛠 Технологический прорыв DeepSeek V4 1:32

DeepSeek представила модель в двух вариантах: Pro и Flash . Версия Pro содержит 1,6 триллиона параметров, из которых активными являются только 49 миллиардов . Такая структура называется Mixture of Experts (смесь экспертов). Она позволяет задействовать лишь малую часть нейросети для ответа на конкретный вопрос, что экономит вычислительную мощность .

Характеристики и возможности новых моделей:

Масштаб обучения: обе версии обучали на массиве данных объемом 33 триллиона токенов .
Производительность: DeepSeek V4 Flash имеет 284 миллиарда параметров (13 миллиардов активных) и позиционируется как быстрая «рабочая лошадка» .
Навыки: модель демонстрирует способности к рассуждению и программированию на уровне Claude 3.7 Opus и GPT-5.5 .

В тестах MMLU Pro и GPQA Diamond китайская разработка лишь незначительно уступает лидерам рынка . По мнению Мэттью Бермана, для большинства коммерческих задач такая разница в производительности не имеет значения .

💰 Экономика эффективности и парадокс Джевонса 2:11

DeepSeek тратит на обучение моделей доли от тех сумм, которые вкладывают американские лаборатории . Это вызывает панику на фондовых рынках, так как инвесторы начинают сомневаться в оправданности огромных затрат на оборудование Nvidia .

Экономические аспекты модели:

Стоимость: использование DeepSeek V4 стоит в разы дешевле американских аналогов .
Парадокс Джевонса: при снижении стоимости ресурса спрос на него и объемы потребления только растут .
Доступность: версия Flash предлагает производительность по цене «копейки за миллион токенов» .

Мэттью Берман указывает на график соотношения интеллекта и цены. DeepSeek V4 Pro находится в зоне высокой эффективности: почти такая же умная, как GPT-5.5, но намного доступнее .

🌐 Геополитика и экспортный контроль 7:18

США запрещают Nvidia продавать топовые чипы вроде GB300 в Китай напрямую . Несмотря на дефицит мощностей, китайские инженеры совершают алгоритмические прорывы . Они создают модели мирового уровня на «урезанных» графических процессорах .

Ситуация с ресурсами:

Ограничение мощностей: DeepSeek признает нехватку вычислительных узлов для полноценного запуска версии Pro .
Планы расширения: во второй половине года компания планирует запустить 950 суперузлов, что еще сильнее снизит стоимость использования модели .
Импортозамещение: Китай активно разрабатывает собственные чипы, адаптируя их под свои открытые модели .

🛡 Обвинения в дистилляции данных 9:27

Anthropic недавно заявила, что китайские лаборатории проводят «дистилляционные атаки» . Это процесс, когда одну нейросеть обучают на ответах другой модели, фактически копируя её интеллектуальную собственность .

Факты об инциденте:

Масштаб: у DeepSeek зафиксировано всего 150 000 обменов данными с моделями конкурентов .
Сравнение: компании Moonshot и Minimax использовали миллионы диалогов для тех же целей .
Контраргумент: небольшое количество запросов DeepSeek можно объяснить обычным тестированием (бенчмаркингом), а не кражей данных .

Мэттью Берман отмечает, что DeepSeek публикует подробные отчеты (white papers) о своей архитектуре . Это не вяжется с образом компании, которая просто копирует чужие наработки.

⚠️ Угроза для американского бизнеса 13:10

Главная проблема для США заключается в привлекательности китайских моделей для бизнеса. Американские компании и их союзники могут выбрать DeepSeek из-за открытого исходного кода и низкой цены .

Риски для США:

Безопасность: зависимость от китайской архитектуры может позволить другой стране диктовать повестку или внезапно ограничить доступ к технологиям .
Инвестиции: триллионы долларов вкладываются в инфраструктуру ИИ внутри США. Если бизнес перейдет на дешевые китайские аналоги, эти инвестиции не окупятся .
Культурное влияние: если раньше западные соцсети контролировали нарратив, то теперь китайские модели могут определять, что пользователям допустимо обсуждать .

Мэттью Берман призывает американские компании активнее развивать открытое ПО и радикально снижать стоимость использования своих нейросетей . В противном случае преимущество в производстве чипов не поможет удержать лидерство .