OpenAI готовит проект Strawberry: утечка Reuters раскрыла детали наследника Q*

OpenAI вновь оказалась в центре внимания индустрии после того, как агентство Reuters опубликовало детали о секретной разработке под кодовым названием Strawberry («Земляника»). По данным журналистов, за этим именем скрывается проект, ранее известный как Q* (Q-star), который может стать тем самым технологическим прорывом в области логического мышления ИИ, о котором давно ходят слухи. Ведущий канала Wes Roth анализирует внутренние документы компании и объясняет, почему новая технология может привести к «взрыву интеллекта».

🍓 От Q* к Strawberry: Возвращение «секретного оружия» OpenAI 0:00

Согласно отчету Reuters, OpenAI работает над новой технологией логического вывода под кодовым названием Strawberry . Судя по имеющейся информации, это тот самый проект Q*, новости о котором впервые появились в ноябре-декабре прошлого года во время краткосрочного увольнения Сэма Альтмана . Тогда предполагалось, что это масштабный алгоритмический прорыв, позволяющий ИИ-моделям значительно лучше справляться с математикой, обучением и постановкой долгосрочных целей .

Основные факты об утечке:

Сэм Альтман ранее подтверждал реальность утечки о Q*, хотя и называл её «прискорбной», не раскрывая деталей .
Проект Strawberry описывается как «тщательно охраняемый секрет» даже внутри самой OpenAI .
Цель проекта — позволить ИИ не просто генерировать ответы, а планировать свои действия наперед для автономной навигации в интернете .
В OpenAI этот процесс называют «глубоким поиском» (deep search) .

По мнению Веса Рота, именно успехи в разработке Q* могли в свое время напугать Илью Суцкевера, что и привело к ноябрьскому кризису в руководстве компании .

🧠 Глубокий поиск и человекоподобное мышление 2:27

Два источника Reuters описали демонстрации Q*, проведенные ранее в этом году . Модели якобы продемонстрировали способность отвечать на сложные научные и математические вопросы, которые недоступны современным коммерческим решениям . Ранее издание Bloomberg также сообщало о демо-версиях некоего исследовательского проекта с «новыми человекоподобными навыками рассуждения» .

Ключевые особенности новой архитектуры:

Использование специализированных методов обработки модели после её предварительного обучения (pre-training) на огромных наборах данных .
Сэм Альтман и Марк Цукерберг (в интервью с Дуэшем Пателем) намекали, что грань между пре-трейнингом и финальной версией модели становится всё более размытой .
Процесс обучения становится постоянным и непрерывным, а не разовым событием .

Улучшенная способность к рассуждению, по словам автора, позволит ИИ бороться с галлюцинациями, планировать шаги, учитывать законы физического мира и заниматься обучением в контексте (in-context learning) . Сам Сэм Альтман заявлял, что прогресс в области логических способностей (reasoning ability) является важнейшим направлением развития .

🛠 Технология STaR: Как ИИ учит сам себя 5:05

Одним из ключевых элементов Strawberry является метод «пост-обучения» (post-training). Это адаптация базовых моделей для оттачивания их производительности в конкретных задачах после того, как они уже были обучены на массивах общих данных .

Вес Рот отмечает сходство Strawberry с методом STaR (Self-Taught Reasoner — «самоучка-логик»), разработанным в Стэнфорде :

Создание цепочки рассуждений: ИИ не просто выдает ответ, а генерирует логическое обоснование (rational) для каждого шага решения .
Итеративное улучшение: Модель генерирует множество вариантов рассуждений, и те из них, что приводят к правильному ответу, используются для дальнейшего дообучения (fine-tuning) .
Синергия: Улучшенные рассуждения создают более качественные данные для обучения, которые, в свою очередь, еще больше повышают качество рассуждений .

Профессор Стэнфорда Ноа Гудман утверждает, что метод STaR теоретически может позволить языковым моделям «превзойти человеческий интеллект» . По мнению Гудмана, такая перспектива одновременно «захватывающая и пугающая» .

🚀 Агенты и «взрыв интеллекта» 8:38

Внутренние документы OpenAI показывают, что компания стремится обучить Strawberry выполнению «задач с длинным горизонтом» (long horizon tasks) . Речь идет об агентских способностях — возможности выполнять действия, требующие многих шагов и значительного времени.

Амбиции OpenAI в рамках проекта включают:

Создание датасета «глубокого исследования» (deep research dataset) .
Разработку CUA (Computer Using Agent) — агента, способного автономно пользоваться компьютером .
Автономный веб-серфинг и совершение действий на основе найденной информации .
Тестирование модели на задачах инженеров-программщиков и специалистов по машинному обучению .

Вес Рот проводит параллель с идеями Леопольда Ашенбреннера, бывшего сотрудника команды безопасности OpenAI . Ашенбреннер в своей работе «Situational Awareness» утверждал, что ИИ не нужно уметь всё — ему достаточно научиться лишь одной вещи: автоматизировать исследования в области самого ИИ . Если Strawberry сможет заменить ML-инженеров, это запустит цикл рекурсивного самосовершенствования, который Ашенбреннер называет «взрывом интеллекта» .

📉 Иерархия ИИ и загадочная GPT Mini 11:05

Буквально за день до утечки OpenAI официально представила свою пятиуровневую шкалу прогресса на пути к AGI (общему искусственному интеллекту) :

Уровень 1: Чат-боты (разговорный язык) — то, что мы имеем сейчас.
Уровень 2: Логики (Reasoners) — решение проблем на уровне человека с высоким IQ.
Уровень 3: Агенты (Systems) — системы, способные действовать автономно в течение нескольких дней.

Strawberry, судя по всему, нацелена на достижение уровней 2 и 3. В то же время на платформе Chatbot Arena была замечена новая модель под кодовым названием "upcoming-gpt-mini" .

Автор предполагает, что это может быть связано с оптимизацией расходов. Использование небольших моделей-маршрутизаторов позволяет направлять простые запросы на дешевые модели, а сложные — на мощные «логики» . Подобные системы способны снизить затраты на инференс на 85%, сохраняя при этом 95% качества ответов . В будущем Strawberry может стать тем самым «мозгом», который будет управлять целым созвездием более мелких и эффективных моделей .