Уэс Рот обсуждает масштабный релиз китайской модели DeepSeek R1, которая не только догнала флагманскую o1 от OpenAI по ключевым показателям, но и сделала это в формате открытого исходного кода. Главной сенсацией стал отчет исследователей о способности нейросети к «самоэволюции» и возникновению автономных стратегий рассуждения, которые Уэс Рот называет переломным моментом в развитии индустрии.
🚀 Триумф Open Source: DeepSeek R1 бросает вызов o1 0:00
Китайская компания DeepSeek представила модель R1, которая, по многим параметрам, соответствует или превосходит o1 — одну из самых продвинутых моделей от OpenAI . Уэс Рот подчеркивает, что этот релиз является «разрушительным для основ индустрии», поскольку модель полностью открыта (лицензия MIT) . Это означает, что любой бизнес или частный разработчик может использовать ее, коммерциализировать и даже запускать на домашнем оборудовании .
Ключевые характеристики релиза:
- Производительность на уровне o1 в математических тестах, включая сложнейший бенчмарк AIME 2024 .
- Полная открытость весов и технического отчета .
- Возможность «дистилляции» — использования R1 как «королевы улья» для создания малых, но эффективных специализированных моделей .
Автор отмечает, что R1 демонстрирует выдающиеся результаты в задачах, требующих пошаговых рассуждений (Chain of Thought), где невозможно просто выдать ответ из обучающей выборки, а нужно действительно «продумывать» решение .
📉 Дистилляция знаний: как «карлики» обходят гигантов 2:49
Одним из самых практических аспектов релиза стала публикация дистиллированных моделей. Дистилляция (или «обучение студента учителем») — это процесс, при котором большая и дорогая модель генерирует синтетические данные и цепочки рассуждений, на которых затем обучается маленькая модель .
Уэс Рот приводит поразительные цифры из тестов на математические способности (AIME):
- GPT-4o набирает около 9 баллов .
- Claude 3.5 Sonnet — около 16 баллов .
- DeepSeek R1 Distill (всего 1.5 млрд параметров) набирает 28 баллов, что почти в три раза лучше GPT-4o, несмотря на микроскопический размер .
- Модель на 7 млрд параметров обходит все классические (не рассуждающие) модели, уступая только o1-mini .
- Версия на 32 млрд параметров достигает показателя 72.6, что является феноменальным результатом для открытого ПО .
По мнению Уэса Рота, эти данные доказывают, что для решения специфических задач больше не требуются модели-монстры с триллионами параметров, если у вас есть качественные данные для дистилляции .
🧠 Феномен DeepSeek-R1-Zero: «Ага-эффект» и автономная эволюция 6:42
В техническом отчете DeepSeek упоминаются две версии: основная R1 и исследовательская R1-Zero. Вторая модель обучалась исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без предварительной тонкой настройки человеком (Supervised Fine-Tuning) .
В процессе обучения R1-Zero исследователи зафиксировали «момент озарения» (aha moment) :
- Модель начала самостоятельно увеличивать время на обдумывание задачи (test-time computation) .
- У нейросети спонтанно возникли навыки саморефлексии — она начала перепроверять свои предыдущие шаги и искать альтернативные подходы .
- Она начала использовать «антропоморфный» тон в рассуждениях, делая паузы и буквально восклицая «подождите, кажется, я понял», когда находила ошибку в своих вычислениях .
Уэс Рот подчеркивает, что эти навыки не были запрограммированы людьми — они «возникли» (emergence) как результат взаимодействия модели со средой обучения . Это подтверждает гипотезу о том, что интеллект может быть эмерджентным свойством физики, о чем ранее упоминали Сэм Альтман и Илья Суцкевер .
🌍 Смена парадигмы: от инженерии к «выращиванию» разума 13:01
Обсуждая философские и технические последствия, Уэс Рот замечает, что в научной фантастике (Азимов, «Звездный путь») ИИ всегда описывался как нечто скрупулезно закодированное человеком . Однако в реальности мы видим процесс, больше похожий на «выращивание» или культивацию .
Аналогия с AlphaGo/AlphaZero:
- Когда AlphaGo обучалась на партиях людей, она играла хорошо .
- Когда модель AlphaZero начала играть сама с собой миллионы партий, она достигла сверхчеловеческого уровня, делая ходы, которые эксперты сначала считали «ошибочными» или «чуждыми», прежде чем поняли их гениальность .
Доктор Джим Фан из NVIDIA, на которого ссылается Уэс Рот, утверждает, что DeepSeek R1 — это первый проект с открытым кодом, продемонстрировавший устойчивый маховик (flywheel) самообучения через Reinforcement Learning . По его мнению, это делает «секреты» OpenAI (такие как проект Strawberry) доступными для всего мира через открытые алгоритмы и кривые обучения .
⚔️ Геополитика и «Рыба-кот» индустрии 21:13
Релиз DeepSeek вызвал шок в индустрии еще и потому, что это пришло из Китая. В интервью генеральный директор DeepSeek согласился с тем, что компанию называют «рыбой-котом» (catfish) индустрии — термином, обозначающим агрессивного игрока, который заставляет всех остальных двигаться быстрее и снижать цены .
Основные выводы о текущей ситуации:
- Доступность: Модель с 671 млрд параметров запускается на потребительском железе (например, два процессора M2 Ultra) и выдает текст быстрее скорости чтения человека .
- Идеология: Джим Фан и Уэс Рот отмечают иронию в том, что китайская компания сегодня больше соответствует первоначальной миссии OpenAI (открытый ИИ для всех), чем сама OpenAI .
- Конкуренция: Другие стартапы, такие как Kimi, также публикуют исследования, подтверждающие конвергенцию идей в области RL и цепочек рассуждений .
Уэс Рот резюмирует, что экономический план США по глобальному доминированию через закрытые системы ИИ (OpenAI, Anthropic) сталкивается с огромным вызовом. Если передовые технологии исследования доступны всему миру бесплатно, контролировать развитие ИИ и навязывать свои стандарты становится гораздо сложнее .