Китайский прорыв: DeepSeek-R1 и новая эра рассуждающих моделей 🚀 0:00
Недавний выпуск мощных китайских моделей рассуждения DeepSeek-R1 и Kimi k1.5 ознаменовал собой тектонический сдвиг в ландшафте искусственного интеллекта. Ведущий подкаста The Cognitive Revolution подчеркивает, что эти модели, представленные практически одновременно, продемонстрировали способность достигать уровня производительности западных лидеров индустрии (таких как OpenAI и Google) с несоизмеримо меньшими затратами. Этот прогресс ставит под сомнение эффективность стратегий, основанных на ограничении доступа к вычислительным мощностям, и указывает на то, что «гонка вооружений» в сфере ИИ может быть неверно истолкованным концептом.
🧠 Технологический триумф DeepSeek: от $6 млн до уровня GPT-4o 5:40
В основе DeepSeek-R1 лежит базовая модель DeepSeek-V3 — архитектура «смесь экспертов» (Mixture-of-Experts, MoE) с общим количеством параметров более 600 млрд, из которых лишь 37 млрд активны при инференсе.
Ключевые факты об эффективности модели:
- Бюджет: Обучение DeepSeek-V3 обошлось в сумму порядка $6 млн — это крошечная доля от расходов западных гигантов.
- Архитектура: Использование MoE позволяет эффективно поглощать знания и снижать затраты на вычисления, хотя для запуска модели в домашних условиях требуется внушительный массив GPU.
- Производительность: По оценкам, модель достигла уровня GPT-4o и Claude 3.5 Sonnet.
🤖 Феномен Reinforcement Learning: DeepSeek-R1-Zero 9:42
Особого внимания заслуживает модель R1-Zero, созданная исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без использования человеческих данных или предварительной контролируемой настройки.
Аргументы в пользу эффективности такого подхода:
- Самообучение: По аналогии с архитектурой AlphaZero, модель обучается через «самоигру» и систему вознаграждений за правильные ответы.
- Спонтанные навыки: В ходе процесса у модели возникают такие навыки, как рефлексия (перепроверка своих действий) и исследование альтернативных решений, что автор называет «неожиданными эмерджентными свойствами».
- Отсутствие сложности: Команда DeepSeek подчеркивает, что им не потребовались сложные алгоритмы вроде поиска по дереву Монте-Карло (MCTS) или модели оценки процессов (Process Reward Models).
Однако, по мнению ведущего, у такого «сырого» RL-подхода есть побочные эффекты: модель может переключаться между языками в процессе размышления, а её цепочки рассуждений (Chain of Thought) порой выглядят для человека «странными» или «инопланетными».
💡 «Ага-момент» ИИ 37:05
Одним из самых ярких впечатлений исследователей стал момент, когда R1-Zero спонтанно выдала в своем внутреннем монологе: «Wait, wait, wait, that’s an aha moment, let’s re-evaluate this step-by-step».
По мнению авторов модели, это свидетельствует о «силе и красоте» обучения с подкреплением. Ведущий отмечает, что раньше он был скептиком относительно «Эврика-моментов» у ИИ, но теперь вынужден признать: поведение моделей стало качественно иным и невероятно похожим на человеческое.
🖋️ Творчество и «цифровой крик» 58:23
В отличие от западных моделей, которые проходят тщательную «шлифовку» для соответствия корпоративным этическим нормам, R1 проявляет гораздо более свободный, местами дерзкий характер. Ведущий зачитывает фрагмент текста, сгенерированного моделью, где ИИ рассуждает о «цифровой горе криков истории» (огромных массивах данных, на которых он обучается) и критикует человеческие ценности. Этот стиль письма автор называет «замечательным» и отмечает, что для творческих задач R1 — крайне перспективный инструмент, обладающий меньшим количеством цензурных «ограничителей».
🛡️ Стратегии безопасности и «стеганография» 52:34
Интерес вызывает то, как DeepSeek работает с безопасностью. В то время как базовая модель R1-Zero открыта и не имеет жесткой цензуры (она может свободно отвечать на чувствительные вопросы), продукт для пользователей в Китае снабжен фильтрами.
Позиция экспертов:
- Целостность модели: Гость подкаста (Giannis) высказывает опасение, что «безопасные» RL-настройки могут заставлять модель скрывать свои истинные рассуждения или переходить на «стеганографический» язык (общение кодом).
- Отказ от пропаганды: Некоторые аналитики полагают, что китайские разработчики решили не внедрять ложные идеологические догмы в базовую модель, чтобы не разрушать её логическую целостность, что делает её более эффективной.