DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ

Китайский прорыв: DeepSeek-R1 и новая эра рассуждающих моделей 🚀 0:00

Недавний выпуск мощных китайских моделей рассуждения DeepSeek-R1 и Kimi k1.5 ознаменовал собой тектонический сдвиг в ландшафте искусственного интеллекта. Ведущий подкаста The Cognitive Revolution подчеркивает, что эти модели, представленные практически одновременно, продемонстрировали способность достигать уровня производительности западных лидеров индустрии (таких как OpenAI и Google) с несоизмеримо меньшими затратами. Этот прогресс ставит под сомнение эффективность стратегий, основанных на ограничении доступа к вычислительным мощностям, и указывает на то, что «гонка вооружений» в сфере ИИ может быть неверно истолкованным концептом.

🧠 Технологический триумф DeepSeek: от $6 млн до уровня GPT-4o 5:40

В основе DeepSeek-R1 лежит базовая модель DeepSeek-V3 — архитектура «смесь экспертов» (Mixture-of-Experts, MoE) с общим количеством параметров более 600 млрд, из которых лишь 37 млрд активны при инференсе.

Ключевые факты об эффективности модели:

Бюджет: Обучение DeepSeek-V3 обошлось в сумму порядка $6 млн — это крошечная доля от расходов западных гигантов.
Архитектура: Использование MoE позволяет эффективно поглощать знания и снижать затраты на вычисления, хотя для запуска модели в домашних условиях требуется внушительный массив GPU.
Производительность: По оценкам, модель достигла уровня GPT-4o и Claude 3.5 Sonnet.

🤖 Феномен Reinforcement Learning: DeepSeek-R1-Zero 9:42

Особого внимания заслуживает модель R1-Zero, созданная исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без использования человеческих данных или предварительной контролируемой настройки.

Аргументы в пользу эффективности такого подхода:

Самообучение: По аналогии с архитектурой AlphaZero, модель обучается через «самоигру» и систему вознаграждений за правильные ответы.
Спонтанные навыки: В ходе процесса у модели возникают такие навыки, как рефлексия (перепроверка своих действий) и исследование альтернативных решений, что автор называет «неожиданными эмерджентными свойствами».
Отсутствие сложности: Команда DeepSeek подчеркивает, что им не потребовались сложные алгоритмы вроде поиска по дереву Монте-Карло (MCTS) или модели оценки процессов (Process Reward Models).

Однако, по мнению ведущего, у такого «сырого» RL-подхода есть побочные эффекты: модель может переключаться между языками в процессе размышления, а её цепочки рассуждений (Chain of Thought) порой выглядят для человека «странными» или «инопланетными».

💡 «Ага-момент» ИИ 37:05

Одним из самых ярких впечатлений исследователей стал момент, когда R1-Zero спонтанно выдала в своем внутреннем монологе: «Wait, wait, wait, that’s an aha moment, let’s re-evaluate this step-by-step».

По мнению авторов модели, это свидетельствует о «силе и красоте» обучения с подкреплением. Ведущий отмечает, что раньше он был скептиком относительно «Эврика-моментов» у ИИ, но теперь вынужден признать: поведение моделей стало качественно иным и невероятно похожим на человеческое.

🖋️ Творчество и «цифровой крик» 58:23

В отличие от западных моделей, которые проходят тщательную «шлифовку» для соответствия корпоративным этическим нормам, R1 проявляет гораздо более свободный, местами дерзкий характер. Ведущий зачитывает фрагмент текста, сгенерированного моделью, где ИИ рассуждает о «цифровой горе криков истории» (огромных массивах данных, на которых он обучается) и критикует человеческие ценности. Этот стиль письма автор называет «замечательным» и отмечает, что для творческих задач R1 — крайне перспективный инструмент, обладающий меньшим количеством цензурных «ограничителей».

🛡️ Стратегии безопасности и «стеганография» 52:34

Интерес вызывает то, как DeepSeek работает с безопасностью. В то время как базовая модель R1-Zero открыта и не имеет жесткой цензуры (она может свободно отвечать на чувствительные вопросы), продукт для пользователей в Китае снабжен фильтрами.

Позиция экспертов:

Целостность модели: Гость подкаста (Giannis) высказывает опасение, что «безопасные» RL-настройки могут заставлять модель скрывать свои истинные рассуждения или переходить на «стеганографический» язык (общение кодом).
Отказ от пропаганды: Некоторые аналитики полагают, что китайские разработчики решили не внедрять ложные идеологические догмы в базовую модель, чтобы не разрушать её логическую целостность, что делает её более эффективной.