Уэс Рот о DeepSeek R1: китайский прорыв к сильному ИИ через самоэволюцию

Уэс Рот обсуждает масштабный релиз китайской модели DeepSeek R1, которая не только догнала флагманскую o1 от OpenAI по ключевым показателям, но и сделала это в формате открытого исходного кода. Главной сенсацией стал отчет исследователей о способности нейросети к «самоэволюции» и возникновению автономных стратегий рассуждения, которые Уэс Рот называет переломным моментом в развитии индустрии.

🚀 Триумф Open Source: DeepSeek R1 бросает вызов o1 0:00

Китайская компания DeepSeek представила модель R1, которая, по многим параметрам, соответствует или превосходит o1 — одну из самых продвинутых моделей от OpenAI . Уэс Рот подчеркивает, что этот релиз является «разрушительным для основ индустрии», поскольку модель полностью открыта (лицензия MIT) . Это означает, что любой бизнес или частный разработчик может использовать ее, коммерциализировать и даже запускать на домашнем оборудовании .

Ключевые характеристики релиза:

Производительность на уровне o1 в математических тестах, включая сложнейший бенчмарк AIME 2024 .
Полная открытость весов и технического отчета .
Возможность «дистилляции» — использования R1 как «королевы улья» для создания малых, но эффективных специализированных моделей .

Автор отмечает, что R1 демонстрирует выдающиеся результаты в задачах, требующих пошаговых рассуждений (Chain of Thought), где невозможно просто выдать ответ из обучающей выборки, а нужно действительно «продумывать» решение .

📉 Дистилляция знаний: как «карлики» обходят гигантов 2:49

Одним из самых практических аспектов релиза стала публикация дистиллированных моделей. Дистилляция (или «обучение студента учителем») — это процесс, при котором большая и дорогая модель генерирует синтетические данные и цепочки рассуждений, на которых затем обучается маленькая модель .

Уэс Рот приводит поразительные цифры из тестов на математические способности (AIME):

GPT-4o набирает около 9 баллов .
Claude 3.5 Sonnet — около 16 баллов .
DeepSeek R1 Distill (всего 1.5 млрд параметров) набирает 28 баллов, что почти в три раза лучше GPT-4o, несмотря на микроскопический размер .
Модель на 7 млрд параметров обходит все классические (не рассуждающие) модели, уступая только o1-mini .
Версия на 32 млрд параметров достигает показателя 72.6, что является феноменальным результатом для открытого ПО .

По мнению Уэса Рота, эти данные доказывают, что для решения специфических задач больше не требуются модели-монстры с триллионами параметров, если у вас есть качественные данные для дистилляции .

🧠 Феномен DeepSeek-R1-Zero: «Ага-эффект» и автономная эволюция 6:42

В техническом отчете DeepSeek упоминаются две версии: основная R1 и исследовательская R1-Zero. Вторая модель обучалась исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без предварительной тонкой настройки человеком (Supervised Fine-Tuning) .

В процессе обучения R1-Zero исследователи зафиксировали «момент озарения» (aha moment) :

Модель начала самостоятельно увеличивать время на обдумывание задачи (test-time computation) .
У нейросети спонтанно возникли навыки саморефлексии — она начала перепроверять свои предыдущие шаги и искать альтернативные подходы .
Она начала использовать «антропоморфный» тон в рассуждениях, делая паузы и буквально восклицая «подождите, кажется, я понял», когда находила ошибку в своих вычислениях .

Уэс Рот подчеркивает, что эти навыки не были запрограммированы людьми — они «возникли» (emergence) как результат взаимодействия модели со средой обучения . Это подтверждает гипотезу о том, что интеллект может быть эмерджентным свойством физики, о чем ранее упоминали Сэм Альтман и Илья Суцкевер .

🌍 Смена парадигмы: от инженерии к «выращиванию» разума 13:01

Обсуждая философские и технические последствия, Уэс Рот замечает, что в научной фантастике (Азимов, «Звездный путь») ИИ всегда описывался как нечто скрупулезно закодированное человеком . Однако в реальности мы видим процесс, больше похожий на «выращивание» или культивацию .

Аналогия с AlphaGo/AlphaZero:

Когда AlphaGo обучалась на партиях людей, она играла хорошо .
Когда модель AlphaZero начала играть сама с собой миллионы партий, она достигла сверхчеловеческого уровня, делая ходы, которые эксперты сначала считали «ошибочными» или «чуждыми», прежде чем поняли их гениальность .

Доктор Джим Фан из NVIDIA, на которого ссылается Уэс Рот, утверждает, что DeepSeek R1 — это первый проект с открытым кодом, продемонстрировавший устойчивый маховик (flywheel) самообучения через Reinforcement Learning . По его мнению, это делает «секреты» OpenAI (такие как проект Strawberry) доступными для всего мира через открытые алгоритмы и кривые обучения .

⚔️ Геополитика и «Рыба-кот» индустрии 21:13

Релиз DeepSeek вызвал шок в индустрии еще и потому, что это пришло из Китая. В интервью генеральный директор DeepSeek согласился с тем, что компанию называют «рыбой-котом» (catfish) индустрии — термином, обозначающим агрессивного игрока, который заставляет всех остальных двигаться быстрее и снижать цены .

Основные выводы о текущей ситуации:

Доступность: Модель с 671 млрд параметров запускается на потребительском железе (например, два процессора M2 Ultra) и выдает текст быстрее скорости чтения человека .
Идеология: Джим Фан и Уэс Рот отмечают иронию в том, что китайская компания сегодня больше соответствует первоначальной миссии OpenAI (открытый ИИ для всех), чем сама OpenAI .
Конкуренция: Другие стартапы, такие как Kimi, также публикуют исследования, подтверждающие конвергенцию идей в области RL и цепочек рассуждений .

Уэс Рот резюмирует, что экономический план США по глобальному доминированию через закрытые системы ИИ (OpenAI, Anthropic) сталкивается с огромным вызовом. Если передовые технологии исследования доступны всему миру бесплатно, контролировать развитие ИИ и навязывать свои стандарты становится гораздо сложнее .