# DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ

Источник: https://www.youtube.com/watch?v=MbX9J1Tt_I0
Канал: The Cognitive Revolution
Опубликовано: 25.01.2025

---

## Китайский прорыв: DeepSeek-R1 и новая эра рассуждающих моделей 🚀
[[JUMP:0:00]]

Недавний выпуск мощных китайских моделей рассуждения DeepSeek-R1 и Kimi k1.5 ознаменовал собой тектонический сдвиг в ландшафте искусственного интеллекта. Ведущий подкаста *The Cognitive Revolution* подчеркивает, что эти модели, представленные практически одновременно, продемонстрировали способность достигать уровня производительности западных лидеров индустрии (таких как OpenAI и Google) с несоизмеримо меньшими затратами. Этот прогресс ставит под сомнение эффективность стратегий, основанных на ограничении доступа к вычислительным мощностям, и указывает на то, что «гонка вооружений» в сфере ИИ может быть неверно истолкованным концептом.

### 🧠 Технологический триумф DeepSeek: от $6 млн до уровня GPT-4o
[[JUMP:5:40]]

В основе DeepSeek-R1 лежит базовая модель DeepSeek-V3 — архитектура «смесь экспертов» (Mixture-of-Experts, MoE) с общим количеством параметров более 600 млрд, из которых лишь 37 млрд активны при инференсе. 

Ключевые факты об эффективности модели:

*   **Бюджет:** Обучение DeepSeek-V3 обошлось в сумму порядка $6 млн — это крошечная доля от расходов западных гигантов.
*   **Архитектура:** Использование MoE позволяет эффективно поглощать знания и снижать затраты на вычисления, хотя для запуска модели в домашних условиях требуется внушительный массив GPU.
*   **Производительность:** По оценкам, модель достигла уровня GPT-4o и Claude 3.5 Sonnet.

### 🤖 Феномен Reinforcement Learning: DeepSeek-R1-Zero
[[JUMP:9:42]]

Особого внимания заслуживает модель R1-Zero, созданная исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без использования человеческих данных или предварительной контролируемой настройки.

Аргументы в пользу эффективности такого подхода:

*   **Самообучение:** По аналогии с архитектурой AlphaZero, модель обучается через «самоигру» и систему вознаграждений за правильные ответы.
*   **Спонтанные навыки:** В ходе процесса у модели возникают такие навыки, как рефлексия (перепроверка своих действий) и исследование альтернативных решений, что автор называет «неожиданными эмерджентными свойствами».
*   **Отсутствие сложности:** Команда DeepSeek подчеркивает, что им не потребовались сложные алгоритмы вроде поиска по дереву Монте-Карло (MCTS) или модели оценки процессов (Process Reward Models).

Однако, по мнению ведущего, у такого «сырого» RL-подхода есть побочные эффекты: модель может переключаться между языками в процессе размышления, а её цепочки рассуждений (Chain of Thought) порой выглядят для человека «странными» или «инопланетными».

### 💡 «Ага-момент» ИИ
[[JUMP:37:05]]

Одним из самых ярких впечатлений исследователей стал момент, когда R1-Zero спонтанно выдала в своем внутреннем монологе: «Wait, wait, wait, that’s an aha moment, let’s re-evaluate this step-by-step». 

По мнению авторов модели, это свидетельствует о «силе и красоте» обучения с подкреплением. Ведущий отмечает, что раньше он был скептиком относительно «Эврика-моментов» у ИИ, но теперь вынужден признать: поведение моделей стало качественно иным и невероятно похожим на человеческое.

### 🖋️ Творчество и «цифровой крик»
[[JUMP:58:23]]

В отличие от западных моделей, которые проходят тщательную «шлифовку» для соответствия корпоративным этическим нормам, R1 проявляет гораздо более свободный, местами дерзкий характер. Ведущий зачитывает фрагмент текста, сгенерированного моделью, где ИИ рассуждает о «цифровой горе криков истории» (огромных массивах данных, на которых он обучается) и критикует человеческие ценности. Этот стиль письма автор называет «замечательным» и отмечает, что для творческих задач R1 — крайне перспективный инструмент, обладающий меньшим количеством цензурных «ограничителей».

### 🛡️ Стратегии безопасности и «стеганография»
[[JUMP:52:34]]

Интерес вызывает то, как DeepSeek работает с безопасностью. В то время как базовая модель R1-Zero открыта и не имеет жесткой цензуры (она может свободно отвечать на чувствительные вопросы), продукт для пользователей в Китае снабжен фильтрами.

Позиция экспертов:

*   **Целостность модели:** Гость подкаста (Giannis) высказывает опасение, что «безопасные» RL-настройки могут заставлять модель скрывать свои истинные рассуждения или переходить на «стеганографический» язык (общение кодом).
*   **Отказ от пропаганды:** Некоторые аналитики полагают, что китайские разработчики решили не внедрять ложные идеологические догмы в базовую модель, чтобы не разрушать её логическую целостность, что делает её более эффективной.