Уэс Рот о DeepSeek R1: китайский прорыв к сильному ИИ через самоэволюцию

Wes Roth 118 тыс. 25 мин 4 мин 21.01.2025
Главное

Уэс Рот обсуждает масштабный релиз китайской модели DeepSeek R1, которая не только догнала флагманскую o1 от OpenAI по ключевым показателям, но и сделала это в формате открытого исходного кода. Главной сенсацией стал отчет исследователей о способности нейросети к «самоэволюции» и возникновению автономных стратегий рассуждения, которые Уэс Рот называет переломным моментом в развитии индустрии.

🚀 Триумф Open Source: DeepSeek R1 бросает вызов o1 0:00

Китайская компания DeepSeek представила модель R1, которая, по многим параметрам, соответствует или превосходит o1 — одну из самых продвинутых моделей от OpenAI . Уэс Рот подчеркивает, что этот релиз является «разрушительным для основ индустрии», поскольку модель полностью открыта (лицензия MIT) . Это означает, что любой бизнес или частный разработчик может использовать ее, коммерциализировать и даже запускать на домашнем оборудовании .

Ключевые характеристики релиза:

Автор отмечает, что R1 демонстрирует выдающиеся результаты в задачах, требующих пошаговых рассуждений (Chain of Thought), где невозможно просто выдать ответ из обучающей выборки, а нужно действительно «продумывать» решение .

📉 Дистилляция знаний: как «карлики» обходят гигантов 2:49

Одним из самых практических аспектов релиза стала публикация дистиллированных моделей. Дистилляция (или «обучение студента учителем») — это процесс, при котором большая и дорогая модель генерирует синтетические данные и цепочки рассуждений, на которых затем обучается маленькая модель .

Уэс Рот приводит поразительные цифры из тестов на математические способности (AIME):

По мнению Уэса Рота, эти данные доказывают, что для решения специфических задач больше не требуются модели-монстры с триллионами параметров, если у вас есть качественные данные для дистилляции .

🧠 Феномен DeepSeek-R1-Zero: «Ага-эффект» и автономная эволюция 6:42

В техническом отчете DeepSeek упоминаются две версии: основная R1 и исследовательская R1-Zero. Вторая модель обучалась исключительно методом обучения с подкреплением (Reinforcement Learning, RL) без предварительной тонкой настройки человеком (Supervised Fine-Tuning) .

В процессе обучения R1-Zero исследователи зафиксировали «момент озарения» (aha moment) :

  1. Модель начала самостоятельно увеличивать время на обдумывание задачи (test-time computation) .
  2. У нейросети спонтанно возникли навыки саморефлексии — она начала перепроверять свои предыдущие шаги и искать альтернативные подходы .
  3. Она начала использовать «антропоморфный» тон в рассуждениях, делая паузы и буквально восклицая «подождите, кажется, я понял», когда находила ошибку в своих вычислениях .

Уэс Рот подчеркивает, что эти навыки не были запрограммированы людьми — они «возникли» (emergence) как результат взаимодействия модели со средой обучения . Это подтверждает гипотезу о том, что интеллект может быть эмерджентным свойством физики, о чем ранее упоминали Сэм Альтман и Илья Суцкевер .

🌍 Смена парадигмы: от инженерии к «выращиванию» разума 13:01

Обсуждая философские и технические последствия, Уэс Рот замечает, что в научной фантастике (Азимов, «Звездный путь») ИИ всегда описывался как нечто скрупулезно закодированное человеком . Однако в реальности мы видим процесс, больше похожий на «выращивание» или культивацию .

Аналогия с AlphaGo/AlphaZero:

Доктор Джим Фан из NVIDIA, на которого ссылается Уэс Рот, утверждает, что DeepSeek R1 — это первый проект с открытым кодом, продемонстрировавший устойчивый маховик (flywheel) самообучения через Reinforcement Learning . По его мнению, это делает «секреты» OpenAI (такие как проект Strawberry) доступными для всего мира через открытые алгоритмы и кривые обучения .

⚔️ Геополитика и «Рыба-кот» индустрии 21:13

Релиз DeepSeek вызвал шок в индустрии еще и потому, что это пришло из Китая. В интервью генеральный директор DeepSeek согласился с тем, что компанию называют «рыбой-котом» (catfish) индустрии — термином, обозначающим агрессивного игрока, который заставляет всех остальных двигаться быстрее и снижать цены .

Основные выводы о текущей ситуации:

Уэс Рот резюмирует, что экономический план США по глобальному доминированию через закрытые системы ИИ (OpenAI, Anthropic) сталкивается с огромным вызовом. Если передовые технологии исследования доступны всему миру бесплатно, контролировать развитие ИИ и навязывать свои стандарты становится гораздо сложнее .

💬 Цитаты

«Мы живем в таймлайне, где неамериканская компания поддерживает первоначальную миссию OpenAI живой — по-настоящему открытые исследования, которые расширяют возможности всех.»

Джим Фан (цитируется Уэсом Ротом) 17:29

«Самоэволюция DeepSeek R1-Zero — это захватывающая демонстрация того, как обучение с подкреплением может заставить модель автономно улучшать свои способности.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Distillation (Дистилляция)
Процесс переноса знаний из большой сложной модели (учителя) в маленькую и быструю (ученика).
AIME
Американский пригласительный математический экзамен, сложный тест, используемый для оценки рассуждающих способностей ИИ.
Reinforcement Learning (RL)
Метод машинного обучения, при котором система обучается на основе системы вознаграждений за правильные действия.
SFT (Supervised Fine-Tuning)
Тонкая настройка модели на размеченных человеком данных.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2023 Первые дискуссии о слиянии LLM и методов AlphaZero.
  2. Февраль 2024 DeepSeek изобретает алгоритм GRPO (Group Relative Policy Optimization).
  3. Январь 2025 Релиз DeepSeek R1 и публикация открытых весов.
⚖️ Другая сторона
Искусственный интеллект DeepSeek R1 OpenAI o1 Reinforcement Learning Уэс Рот Knowledge Distillation