Как китайские исследователи воспроизводят «секретный соус» OpenAI: путь к AGI 3:48
Технологический ландшафт искусственного интеллекта переживает фундаментальный сдвиг. В то время как OpenAI стремительно развивает модели серии o1 и o3, сохраняя их «цепочки рассуждений» (chain of thought) в строгом секрете, научное сообщество, в частности китайские исследователи, активно работает над обратной разработкой этих технологий. Согласно недавней публикации ученых из Фуданьского университета и Шанхайской лаборатории ИИ, эпоха монополии OpenAI на методы рассуждающих моделей (Reasoning models) может подходить к концу.
🧠 Анатомия «рассуждающих» моделей 6:14
Ключевым технологическим прорывом в моделях o1 стал переход от простого предсказания следующего токена к полноценному процессу размышления (test-time compute).
- Цепочки рассуждений: В отличие от GPT-4o, которые выдают ответ мгновенно, модели o1 «думают» перед ответом, перебирая варианты, проверяя себя на ошибки и выстраивая стратегию решения.
- Секретность OpenAI: Компания жестко ограничивает доступ к этим цепочкам, угрожая блокировкой пользователям, которые пытаются «взломать» модель и заставить её раскрыть процесс мышления. По словам Уэса Рота, это делается для того, чтобы конкуренты не могли использовать эти данные для синтетического обучения собственных моделей.
- Метод дистилляции: Исследователи используют «обучение с учителем», где большая и мощная модель (учитель) передает свои способности к рассуждению более компактной и быстрой «студенческой» модели.
🛤 Дорожная карта воспроизведения o1 8:34
Авторы декабрьского исследования 2024 года предлагают четырехкомпонентную модель воспроизведения o1, основанную на принципах обучения с подкреплением (Reinforcement Learning):
- Инициализация политики: Подготовка модели к человекоподобным рассуждениям, позволяющим исследовать пространство решений сложных задач.
- Дизайн вознаграждения: Использование сигналов обратной связи (reward shaping) для оценки промежуточных шагов рассуждения.
- Поиск (Search): Использование вычислительных ресурсов во время тестирования для генерации множества вариантов решения, что радикально повышает точность.
- Обучение: Использование синтетических данных, полученных в процессе поиска, для дальнейшей настройки модели.
По мнению Уэса Рота, этот подход зеркально отражает методы, которые сделали такими успешными алгоритмы Google DeepMind, например AlphaGo. В случае с AlphaGo, модель обучалась, играя сама с собой и генерируя данные, которые делали её сильнее любого человека, — этот же цикл «поиск и обучение» теперь применяется к языковым моделям.
🇨🇳 Роль DeepSeek и будущее Open Source 5:46
Ироничным аспектом ситуации является то, что изначально OpenAI создавалась как организация с открытым исходным кодом (Open Source), но со временем стала закрытой проприетарной компанией. В это же время китайские разработки, такие как серия DeepSeek, активно публикуют свои достижения, фактически делая «технологии OpenAI» общедоступными.
- DeepSeek R1: Компания успешно воспроизвела методологию o1, выпустив свою версию всего через 8 недель после релиза оригинала.
- Эффективность DeepSeek V3: По данным Уэса Рота, эта модель демонстрирует невероятные показатели на тестах уровня математических олимпиад (AIME), превосходя многие западные аналоги при затратах на обучение в 10 раз меньших.
⚖️ Риски и перспективы AGI 14:25
OpenAI выделяет пять уровней развития ИИ, где o1 представляет «уровень 2» (разумные решатели проблем). Следующий этап — «уровень 3» (агенты, способные действовать в реальном мире) — ставит перед разработчиками новые вызовы, связанные с безопасностью и контролем.
Уэс Рот задается вопросом: насколько безопасно делать такие мощные технологии полностью открытыми? С одной стороны, это демократизирует доступ к ИИ и ускоряет прогресс. С другой — не переходим ли мы красную черту, после которой доступ к «суперинтеллекту» становится угрозой для глобальной безопасности? На текущий момент очевидно одно: секретность уже не является надежным барьером против глобальных исследований в области AGI.