Уэс Рот: как китайские лаборатории воспроизводят технологию рассуждений OpenAI

Wes Roth 87,9 тыс. 36 мин 3 мин 03.01.2025
Главное

Как китайские исследователи воспроизводят «секретный соус» OpenAI: путь к AGI 3:48

Технологический ландшафт искусственного интеллекта переживает фундаментальный сдвиг. В то время как OpenAI стремительно развивает модели серии o1 и o3, сохраняя их «цепочки рассуждений» (chain of thought) в строгом секрете, научное сообщество, в частности китайские исследователи, активно работает над обратной разработкой этих технологий. Согласно недавней публикации ученых из Фуданьского университета и Шанхайской лаборатории ИИ, эпоха монополии OpenAI на методы рассуждающих моделей (Reasoning models) может подходить к концу.

🧠 Анатомия «рассуждающих» моделей 6:14

Ключевым технологическим прорывом в моделях o1 стал переход от простого предсказания следующего токена к полноценному процессу размышления (test-time compute).

🛤 Дорожная карта воспроизведения o1 8:34

Авторы декабрьского исследования 2024 года предлагают четырехкомпонентную модель воспроизведения o1, основанную на принципах обучения с подкреплением (Reinforcement Learning):

  1. Инициализация политики: Подготовка модели к человекоподобным рассуждениям, позволяющим исследовать пространство решений сложных задач.
  2. Дизайн вознаграждения: Использование сигналов обратной связи (reward shaping) для оценки промежуточных шагов рассуждения.
  3. Поиск (Search): Использование вычислительных ресурсов во время тестирования для генерации множества вариантов решения, что радикально повышает точность.
  4. Обучение: Использование синтетических данных, полученных в процессе поиска, для дальнейшей настройки модели.

По мнению Уэса Рота, этот подход зеркально отражает методы, которые сделали такими успешными алгоритмы Google DeepMind, например AlphaGo. В случае с AlphaGo, модель обучалась, играя сама с собой и генерируя данные, которые делали её сильнее любого человека, — этот же цикл «поиск и обучение» теперь применяется к языковым моделям.

🇨🇳 Роль DeepSeek и будущее Open Source 5:46

Ироничным аспектом ситуации является то, что изначально OpenAI создавалась как организация с открытым исходным кодом (Open Source), но со временем стала закрытой проприетарной компанией. В это же время китайские разработки, такие как серия DeepSeek, активно публикуют свои достижения, фактически делая «технологии OpenAI» общедоступными.

⚖️ Риски и перспективы AGI 14:25

OpenAI выделяет пять уровней развития ИИ, где o1 представляет «уровень 2» (разумные решатели проблем). Следующий этап — «уровень 3» (агенты, способные действовать в реальном мире) — ставит перед разработчиками новые вызовы, связанные с безопасностью и контролем.

Уэс Рот задается вопросом: насколько безопасно делать такие мощные технологии полностью открытыми? С одной стороны, это демократизирует доступ к ИИ и ускоряет прогресс. С другой — не переходим ли мы красную черту, после которой доступ к «суперинтеллекту» становится угрозой для глобальной безопасности? На текущий момент очевидно одно: секретность уже не является надежным барьером против глобальных исследований в области AGI.

💬 Цитаты

«Если вы попытаетесь взломать эти модели, пытаясь заставить их выдать цепочки рассуждений, вы можете получить бан.»

«OpenAI начиналась как компания по развитию открытого AGI, но их миссия значительно изменилась.»

«Иронично, что технологии, которые OpenAI создает и закрывает, попадают в Open Source благодаря Китаю.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Chain of Thought
Процесс поэтапного мышления модели перед выдачей окончательного ответа.
Knowledge Distillation
Метод обучения небольшой модели на ответах более мощной модели-учителя.
Reinforcement Learning
Метод машинного обучения, основанный на системе поощрений за правильные действия.
Test-time compute
Использование дополнительных вычислительных мощностей во время генерации ответа для глубокого анализа задачи.
Synthetic data
Данные, созданные самим искусственным интеллектом для обучения следующих итераций моделей.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2023 Появились первые утечки об успехах OpenAI в создании новой технологии рассуждений.
  2. Май 2022 Google и Stanford опубликовали исследование о возможности ИИ к самообучению через цепочки рассуждений.
  3. Декабрь 2024 Шанхайская лаборатория ИИ опубликовала дорожную карту по воспроизведению модели o1.
⚖️ Другая сторона
Искусственный интеллект OpenAI DeepSeek o1 Reinforcement Learning AGI