DeepSeek V4: конец американского доминирования в ИИ?

Matthew Berman 213 тыс. 17 мин 3 мин 25.04.2026
Главное

DeepSeek выпустила новую флагманскую модель V4, которая поддерживает контекстное окно объемом в 1 миллион токенов . Мэттью Берман утверждает: эта разработка способна лишить США лидерства в сфере искусственного интеллекта. Китайская компания создала продукт уровня передовых американских лабораторий, используя ограниченные вычислительные ресурсы и значительно меньшие бюджеты .

🛠 Технологический прорыв DeepSeek V4 1:32

DeepSeek представила модель в двух вариантах: Pro и Flash . Версия Pro содержит 1,6 триллиона параметров, из которых активными являются только 49 миллиардов . Такая структура называется Mixture of Experts (смесь экспертов). Она позволяет задействовать лишь малую часть нейросети для ответа на конкретный вопрос, что экономит вычислительную мощность .

Характеристики и возможности новых моделей:

В тестах MMLU Pro и GPQA Diamond китайская разработка лишь незначительно уступает лидерам рынка . По мнению Мэттью Бермана, для большинства коммерческих задач такая разница в производительности не имеет значения .

💰 Экономика эффективности и парадокс Джевонса 2:11

DeepSeek тратит на обучение моделей доли от тех сумм, которые вкладывают американские лаборатории . Это вызывает панику на фондовых рынках, так как инвесторы начинают сомневаться в оправданности огромных затрат на оборудование Nvidia .

Экономические аспекты модели:

  1. Стоимость: использование DeepSeek V4 стоит в разы дешевле американских аналогов .
  2. Парадокс Джевонса: при снижении стоимости ресурса спрос на него и объемы потребления только растут .
  3. Доступность: версия Flash предлагает производительность по цене «копейки за миллион токенов» .

Мэттью Берман указывает на график соотношения интеллекта и цены. DeepSeek V4 Pro находится в зоне высокой эффективности: почти такая же умная, как GPT-5.5, но намного доступнее .

🌐 Геополитика и экспортный контроль 7:18

США запрещают Nvidia продавать топовые чипы вроде GB300 в Китай напрямую . Несмотря на дефицит мощностей, китайские инженеры совершают алгоритмические прорывы . Они создают модели мирового уровня на «урезанных» графических процессорах .

Ситуация с ресурсами:

🛡 Обвинения в дистилляции данных 9:27

Anthropic недавно заявила, что китайские лаборатории проводят «дистилляционные атаки» . Это процесс, когда одну нейросеть обучают на ответах другой модели, фактически копируя её интеллектуальную собственность .

Факты об инциденте:

Мэттью Берман отмечает, что DeepSeek публикует подробные отчеты (white papers) о своей архитектуре . Это не вяжется с образом компании, которая просто копирует чужие наработки.

⚠️ Угроза для американского бизнеса 13:10

Главная проблема для США заключается в привлекательности китайских моделей для бизнеса. Американские компании и их союзники могут выбрать DeepSeek из-за открытого исходного кода и низкой цены .

Риски для США:

Мэттью Берман призывает американские компании активнее развивать открытое ПО и радикально снижать стоимость использования своих нейросетей . В противном случае преимущество в производстве чипов не поможет удержать лидерство .

💬 Цитаты

«Китай смог выпустить модель фронтирного уровня, которая соответствует лучшим из них, полностью с открытым исходным кодом и за долю стоимости.»

Мэттью Берман 0:40

«Это не должно быть возможным, и последствия будут масштабнее, чем люди осознают.»

Мэттью Берман 0:52

«Зачем платить намного больше американской лаборатории, если вы можете строить стратегию на базе китайской открытой модели?»

Мэттью Берман 14:20
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Mixture of Experts (MoE)
Архитектура нейросети, где для каждого запроса активируется только часть параметров.
Парадокс Джевонса
Экономический эффект, при котором рост эффективности использования ресурса ведет к росту его общего потребления.
Дистилляция данных
Метод обучения ИИ на ответах другой, более мощной модели.
Токен
Базовая единица текста, которую обрабатывает нейросеть.
📊 Цифры
🗓 Хронология
  1. Май 2023 Выход GPT-4, создавший огромный разрыв между США и Китаем.
  2. 18 месяцев назад Релиз DeepSeek R1, первой открытой модели, способной к рассуждению.
  3. Неделю назад Релиз обновленных моделей от Anthropic и OpenAI.
  4. Вторая половина текущего года Планируемый запуск масштабных мощностей DeepSeek для снижения цен.
⚖️ Другая сторона
Технологии и IT DeepSeek V4 Мэттью Берман Nvidia Mixture of Experts Claude 3.7 Opus