# DeepSeek: конец эпохи монополии в мире ИИ?

Источник: https://www.youtube.com/watch?v=gY4Z-9QlZ64
Канал: Computerphile
Опубликовано: 28.01.2025

---

## Революция в мире ИИ: Почему DeepSeek меняет правила игры
[[JUMP:0:00]]

В индустрии искусственного интеллекта, где компании годами соревнуются в наращивании мощностей, появление моделей DeepSeek и DeepSeek-R1 стало поворотным моментом. Ведущий канала Computerphile отмечает, что эта китайская компания фактически бросила вызов монополии крупнейших игроков, доказав, что высокую производительность можно достичь с гораздо более ограниченными ресурсами. По мнению автора, этот прорыв не только демократизирует доступ к мощным технологиям, но и ставит под угрозу бизнес-модели, основанные на закрытости и гигантских расходах на оборудование.

## 🧠 Что такое большие языковые модели и почему они стали такими дорогими
[[JUMP:0:25]]

Современные языковые модели представляют собой массивные нейронные сети на архитектуре Transformer, задача которых — предсказание следующего слова. Традиционный подход крупных технологических корпораций к их созданию напоминает «гонку вооружений»:

* **Масштабирование:** Использование сотен тысяч графических процессоров (GPU) и колоссальных объемов данных.
* **Гигантизм:** Создание моделей с миллиардами параметров, которые требуют огромных вычислительных мощностей не только для обучения, но и для использования (инференса).
* **Закрытость:** Такие гиганты, как OpenAI, часто скрывают архитектуру, данные и параметры моделей, предоставляя доступ лишь через API.

Ведущий подчеркивает, что это делает современные технологии недоступными для большинства ученых и независимых исследователей. В отличие от классической науки, где знания накапливаются итеративно, в сфере ИИ закрытость моделей тормозит общий прогресс.

## 🚀 DeepSeek V3: Эффективность как главный аргумент
[[JUMP:4:04]]

Модель DeepSeek V3 демонстрирует, что для достижения уровня производительности, сопоставимого с топовыми решениями, не обязательно тратить сотни миллионов долларов. Создатели заявляют, что затраты на обучение V3 составили всего $5 млн. Достичь этого удалось за счет двух ключевых подходов:

### Смесь экспертов (Mixture of Experts)
[[JUMP:5:48]]
Вместо того чтобы активировать всю гигантскую сеть из сотен миллиардов параметров для каждого запроса, модель использует технологию «смеси экспертов».

* **Принцип:** Система состоит из множества специализированных частей сети.
* **Маршрутизация:** При поступлении запроса активируется только та часть («эксперт»), которая наиболее компетентна в данной задаче.
* **Выгода:** Это значительно снижает вычислительные затраты и позволяет оптимизировать распределение ресурсов в дата-центрах.

### Дистилляция знаний
[[JUMP:9:02]]
DeepSeek активно использует процесс дистилляции, когда большая «учительская» модель обучает более компактную, например, 8-миллиардную версию. Такая модель может эффективно работать даже на потребительском «железе», таком как видеокарта RTX 4090, сохраняя высокую точность в конкретных задачах.

## 🧩 DeepSeek-R1 и искусство Chain of Thought
[[JUMP:11:17]]

DeepSeek-R1 совершила прорыв в логическом мышлении, внедрив метод Chain of Thought («Цепочка рассуждений»). По аналогии с человеческим решением сложных математических задач, модель не пытается выдать ответ мгновенно, а «проговаривает» этапы решения про себя.

* **Полная прозрачность:** В отличие от OpenAI, которые скрывают «внутренний монолог» своих моделей как коммерческую тайну, DeepSeek выложила все исходные коды и веса моделей в открытый доступ.
* **Обучение через вознаграждение:** R1 обучалась с помощью обучения с подкреплением (reinforcement learning), где модель получала награду не за готовый ответ, а за правильность логического вывода и качество внутреннего монолога.

Автор видео считает это критически важным: теперь даже небольшие организации или исследователи могут обучать подобные «рассуждающие» модели, используя стандартные наборы данных с вопросами и ответами, не создавая сложные примеры «правильных мыслей» вручную.

## 🌐 Последствия для индустрии и «Silicon Valley»
[[JUMP:17:46]]

Успех DeepSeek создает серьезное давление на лидеров рынка:

1.  **Угроза для закрытых моделей:** Если любая компания может обучить модель сопоставимого качества, стратегия «закрытых систем» становится менее жизнеспособной.
2.  **Рынок оборудования:** Рыночная стоимость таких гигантов, как NVIDIA, во многом держится на спросе на дорогие GPU со стороны ИИ-лабораторий. Появление эффективных моделей, работающих на потребительском «железе», ставит под сомнение необходимость бесконечной закупки дорогостоящей инфраструктуры.
3.  **Демократизация:** Автор видео отмечает, что для него, как для академического исследователя, это открывает возможности для экспериментов, которые раньше были физически невозможны из-за нехватки вычислительных мощностей.

По мнению ведущего, мы можем наблюдать начало заката эпохи закрытого ИИ, так как эффективность становится важнее простого «наращивания мышц».