# Уэс Рот: как китайские лаборатории воспроизводят технологию рассуждений OpenAI

Источник: https://www.youtube.com/watch?v=RAw3JJIht24
Канал: Wes Roth
Опубликовано: 03.01.2025

---

## Как китайские исследователи воспроизводят «секретный соус» OpenAI: путь к AGI

[[JUMP:3:48]]

Технологический ландшафт искусственного интеллекта переживает фундаментальный сдвиг. В то время как OpenAI стремительно развивает модели серии o1 и o3, сохраняя их «цепочки рассуждений» (chain of thought) в строгом секрете, научное сообщество, в частности китайские исследователи, активно работает над обратной разработкой этих технологий. Согласно недавней публикации ученых из Фуданьского университета и Шанхайской лаборатории ИИ, эпоха монополии OpenAI на методы рассуждающих моделей (Reasoning models) может подходить к концу.

### 🧠 Анатомия «рассуждающих» моделей
[[JUMP:6:14]]

Ключевым технологическим прорывом в моделях o1 стал переход от простого предсказания следующего токена к полноценному процессу размышления (test-time compute).

*   **Цепочки рассуждений:** В отличие от GPT-4o, которые выдают ответ мгновенно, модели o1 «думают» перед ответом, перебирая варианты, проверяя себя на ошибки и выстраивая стратегию решения.
*   **Секретность OpenAI:** Компания жестко ограничивает доступ к этим цепочкам, угрожая блокировкой пользователям, которые пытаются «взломать» модель и заставить её раскрыть процесс мышления. По словам Уэса Рота, это делается для того, чтобы конкуренты не могли использовать эти данные для синтетического обучения собственных моделей.
*   **Метод дистилляции:** Исследователи используют «обучение с учителем», где большая и мощная модель (учитель) передает свои способности к рассуждению более компактной и быстрой «студенческой» модели.

### 🛤 Дорожная карта воспроизведения o1
[[JUMP:8:34]]

Авторы декабрьского исследования 2024 года предлагают четырехкомпонентную модель воспроизведения o1, основанную на принципах обучения с подкреплением (Reinforcement Learning):

1.  **Инициализация политики:** Подготовка модели к человекоподобным рассуждениям, позволяющим исследовать пространство решений сложных задач.
2.  **Дизайн вознаграждения:** Использование сигналов обратной связи (reward shaping) для оценки промежуточных шагов рассуждения.
3.  **Поиск (Search):** Использование вычислительных ресурсов во время тестирования для генерации множества вариантов решения, что радикально повышает точность.
4.  **Обучение:** Использование синтетических данных, полученных в процессе поиска, для дальнейшей настройки модели.

По мнению Уэса Рота, этот подход зеркально отражает методы, которые сделали такими успешными алгоритмы Google DeepMind, например AlphaGo. В случае с AlphaGo, модель обучалась, играя сама с собой и генерируя данные, которые делали её сильнее любого человека, — этот же цикл «поиск и обучение» теперь применяется к языковым моделям.

### 🇨🇳 Роль DeepSeek и будущее Open Source
[[JUMP:5:46]]

Ироничным аспектом ситуации является то, что изначально OpenAI создавалась как организация с открытым исходным кодом (Open Source), но со временем стала закрытой проприетарной компанией. В это же время китайские разработки, такие как серия DeepSeek, активно публикуют свои достижения, фактически делая «технологии OpenAI» общедоступными.

*   **DeepSeek R1:** Компания успешно воспроизвела методологию o1, выпустив свою версию всего через 8 недель после релиза оригинала.
*   **Эффективность DeepSeek V3:** По данным Уэса Рота, эта модель демонстрирует невероятные показатели на тестах уровня математических олимпиад (AIME), превосходя многие западные аналоги при затратах на обучение в 10 раз меньших.

### ⚖️ Риски и перспективы AGI
[[JUMP:14:25]]

OpenAI выделяет пять уровней развития ИИ, где o1 представляет «уровень 2» (разумные решатели проблем). Следующий этап — «уровень 3» (агенты, способные действовать в реальном мире) — ставит перед разработчиками новые вызовы, связанные с безопасностью и контролем.

Уэс Рот задается вопросом: насколько безопасно делать такие мощные технологии полностью открытыми? С одной стороны, это демократизирует доступ к ИИ и ускоряет прогресс. С другой — не переходим ли мы красную черту, после которой доступ к «суперинтеллекту» становится угрозой для глобальной безопасности? На текущий момент очевидно одно: секретность уже не является надежным барьером против глобальных исследований в области AGI.