# Уэс Рот о DeepSeek R1: китайский прорыв к сильному ИИ через самоэволюцию

Источник: https://www.youtube.com/watch?v=LYxQbgAUzsQ
Канал: Wes Roth
Опубликовано: 21.01.2025

---

Уэс Рот обсуждает масштабный релиз китайской модели DeepSeek R1, которая не только догнала флагманскую o1 от OpenAI по ключевым показателям, но и сделала это в формате открытого исходного кода. Главной сенсацией стал отчет исследователей о способности нейросети к «самоэволюции» и возникновению автономных стратегий рассуждения, которые Уэс Рот называет переломным моментом в развитии индустрии.

## 🚀 Триумф Open Source: DeepSeek R1 бросает вызов o1
[[JUMP:00:00]]

Китайская компания DeepSeek представила модель R1, которая, по многим параметрам, соответствует или превосходит o1 — одну из самых продвинутых моделей от OpenAI [0:00]. Уэс Рот подчеркивает, что этот релиз является «разрушительным для основ индустрии», поскольку модель полностью открыта (лицензия MIT) [1:58]. Это означает, что любой бизнес или частный разработчик может использовать ее, коммерциализировать и даже запускать на домашнем оборудовании [0:26].

Ключевые характеристики релиза:

*   Производительность на уровне o1 в математических тестах, включая сложнейший бенчмарк AIME 2024 [2:24].
*   Полная открытость весов и технического отчета [1:58].
*   Возможность «дистилляции» — использования R1 как «королевы улья» для создания малых, но эффективных специализированных моделей [2:08].

Автор отмечает, что R1 демонстрирует выдающиеся результаты в задачах, требующих пошаговых рассуждений (Chain of Thought), где невозможно просто выдать ответ из обучающей выборки, а нужно действительно «продумывать» решение [2:37].

## 📉 Дистилляция знаний: как «карлики» обходят гигантов
[[JUMP:02:49]]

Одним из самых практических аспектов релиза стала публикация дистиллированных моделей. Дистилляция (или «обучение студента учителем») — это процесс, при котором большая и дорогая модель генерирует синтетические данные и цепочки рассуждений, на которых затем обучается маленькая модель [3:55].

Уэс Рот приводит поразительные цифры из тестов на математические способности (AIME):

*   GPT-4o набирает около 9 баллов [4:35].
*   Claude 3.5 Sonnet — около 16 баллов [4:47].
*   DeepSeek R1 Distill (всего 1.5 млрд параметров) набирает 28 баллов, что почти в три раза лучше GPT-4o, несмотря на микроскопический размер [5:26].
*   Модель на 7 млрд параметров обходит все классические (не рассуждающие) модели, уступая только o1-mini [5:38].
*   Версия на 32 млрд параметров достигает показателя 72.6, что является феноменальным результатом для открытого ПО [6:03].

По мнению Уэса Рота, эти данные доказывают, что для решения специфических задач больше не требуются модели-монстры с триллионами параметров, если у вас есть качественные данные для дистилляции [6:16].

## 🧠 Феномен DeepSeek-R1-Zero: «Ага-эффект» и автономная эволюция
[[JUMP:06:42]]

В техническом отчете DeepSeek упоминаются две версии: основная R1 и исследовательская R1-Zero. Вторая модель обучалась исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без предварительной тонкой настройки человеком (Supervised Fine-Tuning) [7:35].

В процессе обучения R1-Zero исследователи зафиксировали «момент озарения» (aha moment) [8:40]:

1.  Модель начала самостоятельно увеличивать время на обдумывание задачи (test-time computation) [10:39].
2.  У нейросети спонтанно возникли навыки саморефлексии — она начала перепроверять свои предыдущие шаги и искать альтернативные подходы [12:35].
3.  Она начала использовать «антропоморфный» тон в рассуждениях, делая паузы и буквально восклицая «подождите, кажется, я понял», когда находила ошибку в своих вычислениях [16:34].

Уэс Рот подчеркивает, что эти навыки не были запрограммированы людьми — они «возникли» (emergence) как результат взаимодействия модели со средой обучения [12:49]. Это подтверждает гипотезу о том, что интеллект может быть эмерджентным свойством физики, о чем ранее упоминали Сэм Альтман и Илья Суцкевер [14:23].

## 🌍 Смена парадигмы: от инженерии к «выращиванию» разума
[[JUMP:13:01]]

Обсуждая философские и технические последствия, Уэс Рот замечает, что в научной фантастике (Азимов, «Звездный путь») ИИ всегда описывался как нечто скрупулезно закодированное человеком [13:55]. Однако в реальности мы видим процесс, больше похожий на «выращивание» или культивацию [14:08].

Аналогия с AlphaGo/AlphaZero:

*   Когда AlphaGo обучалась на партиях людей, она играла хорошо [9:06].
*   Когда модель AlphaZero начала играть сама с собой миллионы партий, она достигла сверхчеловеческого уровня, делая ходы, которые эксперты сначала считали «ошибочными» или «чуждыми», прежде чем поняли их гениальность [9:31].

Доктор Джим Фан из NVIDIA, на которого ссылается Уэс Рот, утверждает, что DeepSeek R1 — это первый проект с открытым кодом, продемонстрировавший устойчивый маховик (flywheel) самообучения через Reinforcement Learning [17:42]. По его мнению, это делает «секреты» OpenAI (такие как проект Strawberry) доступными для всего мира через открытые алгоритмы и кривые обучения [18:32].

## ⚔️ Геополитика и «Рыба-кот» индустрии
[[JUMP:21:13]]

Релиз DeepSeek вызвал шок в индустрии еще и потому, что это пришло из Китая. В интервью генеральный директор DeepSeek согласился с тем, что компанию называют «рыбой-котом» (catfish) индустрии — термином, обозначающим агрессивного игрока, который заставляет всех остальных двигаться быстрее и снижать цены [22:05].

Основные выводы о текущей ситуации:

*   **Доступность:** Модель с 671 млрд параметров запускается на потребительском железе (например, два процессора M2 Ultra) и выдает текст быстрее скорости чтения человека [17:01].
*   **Идеология:** Джим Фан и Уэс Рот отмечают иронию в том, что китайская компания сегодня больше соответствует первоначальной миссии OpenAI (открытый ИИ для всех), чем сама OpenAI [17:29].
*   **Конкуренция:** Другие стартапы, такие как Kimi, также публикуют исследования, подтверждающие конвергенцию идей в области RL и цепочек рассуждений [22:18].

Уэс Рот резюмирует, что экономический план США по глобальному доминированию через закрытые системы ИИ (OpenAI, Anthropic) сталкивается с огромным вызовом. Если передовые технологии исследования доступны всему миру бесплатно, контролировать развитие ИИ и навязывать свои стандарты становится гораздо сложнее [24:44].