Революция рассуждений: Как DeepSeek-R1 и Kimi k1.5 меняют правила игры 0:00
Недавний выпуск китайских моделей рассуждений DeepSeek-R1 и Kimi k1.5 от компании Moonshot AI стал поворотным моментом в индустрии искусственного интеллекта. Натан Лаунд, ведущий подкаста The Cognitive Revolution, анализирует, как эти разработки, созданные при относительно скромных бюджетах, демонстрируют значительное сокращение технологического разрыва между Западом и Китаем. По мнению Лаунда, текущая ситуация ставит под сомнение многие доминирующие на Западе нарративы об «ИИ-войне» и эффективность стратегий, основанных на жестких ограничениях доступа к вычислительным мощностям.
🧠 Технологический прорыв DeepSeek-R1 5:40
В основе DeepSeek-R1 лежит базовая модель DeepSeek-V3 — архитектура «смеси экспертов» (Mixture of Experts) с 671 млрд параметров, которая уже привлекла внимание своей высокой эффективностью при обучении с бюджетом в однозначное число миллионов долларов.
Обучение с подкреплением: От DeepSeek-R1-Zero к R1 9:42
Ключевым достижением авторов стало применение чистого обучения с подкреплением (Reinforcement Learning, RL) без использования данных человеческих предпочтений или сложных внешних моделей вознаграждения.
- DeepSeek-R1-Zero: Обучалась исключительно на основе «правильного/неправильного» ответа (бинарное вознаграждение) на математических и программных задачах.
- Метод R1: Использует многоэтапный подход — «разогрев» на качественных примерах рассуждений (supervised fine-tuning), за которым следует масштабное обучение с подкреплением для достижения человекоподобного поведения.
По наблюдениям Натана Лаунда, этот процесс привел к возникновению эмерджентных (самопроизвольных) свойств: модель самостоятельно начала практиковать рефлексию, перепроверку шагов и поиск альтернативных путей решения. Интересно, что длина цепочки рассуждений (Chain of Thought) модели линейно росла на протяжении 8000 шагов обучения, что, по мнению Лаунда, является доказательством возможности дальнейшего масштабирования этого подхода.
🧪 Феномен «ага-момента» и странности поведения 37:05
В ходе экспериментов исследователи зафиксировали поведение, которое они сами назвали «ага-моментом» (aha moment) — модель начала использовать антропоморфный тон, переосмысливая задачи в процессе решения. Тем не менее, использование R1-Zero порождает и специфические проблемы:
- Языковое переключение: Модель спонтанно меняет языки внутри одной цепочки рассуждений.
- Стеганография (говорение кодом): Некоторые эксперты, включая «модельного шептуна» Giannis, отмечают, что цепочки рассуждений R1 кажутся зашифрованными, что вызывает опасения по поводу непредсказуемого поведения моделей под давлением алгоритмов обучения.
📉 Экономика и доступность 56:48
DeepSeek-R1 демонстрирует десятикратное снижение стоимости вывода по сравнению с моделями уровня OpenAI o1. Хотя Лаунд отмечает, что OpenAI на данный момент сохраняет лидерство в плане «отполированности» пользовательского опыта и настройки тона модели, появление открытых моделей уровня PhD-экспертов, которые можно запускать локально, меняет ландшафт.
🌐 Сравнение с Kimi k1.5 и будущее стратегий 1:14:32
Модель Kimi k1.5 от Moonshot AI следует схожей парадигме обучения, однако авторы используют дополнительный «штраф за длину», чтобы рассуждения были лаконичными там, где это уместно. Оба проекта обходятся без популярных сегодня подходов, таких как поиск по дереву Монте-Карло (MCTS) или модели вознаграждения процессов (PRM), доказывая, что простая авторегрессионная модель может достигать впечатляющих результатов при правильном RL-обучении.
Натан Лаунд приходит к выводу, что стратегия «ИИ-войны» и попытки сдержать Китай через ограничения чипов могут оказаться неэффективными, так как китайские разработчики успешно используют те же парадигмы обучения, что и ведущие западные компании. В текущих условиях он призывает слушателей самостоятельно тестировать R1 и R1-Zero, чтобы лучше понять «черный ящик» современных рассуждающих систем.