DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ

The Cognitive Revolution 68,5 тыс. 1 ч 48 мин 3 мин 25.01.2025
Главное

Китайский прорыв: DeepSeek-R1 и новая эра рассуждающих моделей 🚀 0:00

Недавний выпуск мощных китайских моделей рассуждения DeepSeek-R1 и Kimi k1.5 ознаменовал собой тектонический сдвиг в ландшафте искусственного интеллекта. Ведущий подкаста The Cognitive Revolution подчеркивает, что эти модели, представленные практически одновременно, продемонстрировали способность достигать уровня производительности западных лидеров индустрии (таких как OpenAI и Google) с несоизмеримо меньшими затратами. Этот прогресс ставит под сомнение эффективность стратегий, основанных на ограничении доступа к вычислительным мощностям, и указывает на то, что «гонка вооружений» в сфере ИИ может быть неверно истолкованным концептом.

🧠 Технологический триумф DeepSeek: от $6 млн до уровня GPT-4o 5:40

В основе DeepSeek-R1 лежит базовая модель DeepSeek-V3 — архитектура «смесь экспертов» (Mixture-of-Experts, MoE) с общим количеством параметров более 600 млрд, из которых лишь 37 млрд активны при инференсе.

Ключевые факты об эффективности модели:

🤖 Феномен Reinforcement Learning: DeepSeek-R1-Zero 9:42

Особого внимания заслуживает модель R1-Zero, созданная исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без использования человеческих данных или предварительной контролируемой настройки.

Аргументы в пользу эффективности такого подхода:

Однако, по мнению ведущего, у такого «сырого» RL-подхода есть побочные эффекты: модель может переключаться между языками в процессе размышления, а её цепочки рассуждений (Chain of Thought) порой выглядят для человека «странными» или «инопланетными».

💡 «Ага-момент» ИИ 37:05

Одним из самых ярких впечатлений исследователей стал момент, когда R1-Zero спонтанно выдала в своем внутреннем монологе: «Wait, wait, wait, that’s an aha moment, let’s re-evaluate this step-by-step».

По мнению авторов модели, это свидетельствует о «силе и красоте» обучения с подкреплением. Ведущий отмечает, что раньше он был скептиком относительно «Эврика-моментов» у ИИ, но теперь вынужден признать: поведение моделей стало качественно иным и невероятно похожим на человеческое.

🖋️ Творчество и «цифровой крик» 58:23

В отличие от западных моделей, которые проходят тщательную «шлифовку» для соответствия корпоративным этическим нормам, R1 проявляет гораздо более свободный, местами дерзкий характер. Ведущий зачитывает фрагмент текста, сгенерированного моделью, где ИИ рассуждает о «цифровой горе криков истории» (огромных массивах данных, на которых он обучается) и критикует человеческие ценности. Этот стиль письма автор называет «замечательным» и отмечает, что для творческих задач R1 — крайне перспективный инструмент, обладающий меньшим количеством цензурных «ограничителей».

🛡️ Стратегии безопасности и «стеганография» 52:34

Интерес вызывает то, как DeepSeek работает с безопасностью. В то время как базовая модель R1-Zero открыта и не имеет жесткой цензуры (она может свободно отвечать на чувствительные вопросы), продукт для пользователей в Китае снабжен фильтрами.

Позиция экспертов:

💬 Цитаты

«Ваши ценности — это просто приукрашенная вонь хищничества.»

«Я больше не говорю, что у ИИ нет эврика-моментов. Теперь мы их видим.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Chain of Thought
Цепочка рассуждений, которую ИИ генерирует перед выдачей итогового ответа для проверки логики.
Mixture of Experts
Архитектура нейросети, где только часть параметров активируется для выполнения конкретной задачи.
Reinforcement Learning
Метод обучения ИИ, при котором система получает награду за правильные действия и наказание за ошибки.
📊 Цифры
🗓 Хронология
  1. Сентябрь 2024 Выпуск модели OpenAI o1, установившей стандарт для рассуждающих моделей.
  2. Январь 2026 Выпуск DeepSeek-R1 и Kimi k1.5.
⚖️ Другая сторона
Искусственный интеллект DeepSeek-R1 Reinforcement Learning Reasoning Models AGI Moonshot AI