# OpenAI готовит проект Strawberry: утечка Reuters раскрыла детали наследника Q*

Источник: https://www.youtube.com/watch?v=T9gAg_IXB5w
Канал: Wes Roth
Опубликовано: 13.07.2024

---

OpenAI вновь оказалась в центре внимания индустрии после того, как агентство Reuters опубликовало детали о секретной разработке под кодовым названием Strawberry («Земляника»). По данным журналистов, за этим именем скрывается проект, ранее известный как Q* (Q-star), который может стать тем самым технологическим прорывом в области логического мышления ИИ, о котором давно ходят слухи. Ведущий канала Wes Roth анализирует внутренние документы компании и объясняет, почему новая технология может привести к «взрыву интеллекта».

## 🍓 От Q* к Strawberry: Возвращение «секретного оружия» OpenAI
[[JUMP:0:00]]

Согласно отчету Reuters, OpenAI работает над новой технологией логического вывода под кодовым названием Strawberry [0:00]. Судя по имеющейся информации, это тот самый проект Q*, новости о котором впервые появились в ноябре-декабре прошлого года во время краткосрочного увольнения Сэма Альтмана [0:12]. Тогда предполагалось, что это масштабный алгоритмический прорыв, позволяющий ИИ-моделям значительно лучше справляться с математикой, обучением и постановкой долгосрочных целей [0:24].

Основные факты об утечке:

*   Сэм Альтман ранее подтверждал реальность утечки о Q*, хотя и называл её «прискорбной», не раскрывая деталей [1:04].
*   Проект Strawberry описывается как «тщательно охраняемый секрет» даже внутри самой OpenAI [1:31].
*   Цель проекта — позволить ИИ не просто генерировать ответы, а планировать свои действия наперед для автономной навигации в интернете [1:46].
*   В OpenAI этот процесс называют «глубоким поиском» (deep search) [1:46].

По мнению Веса Рота, именно успехи в разработке Q* могли в свое время напугать Илью Суцкевера, что и привело к ноябрьскому кризису в руководстве компании [2:12].

## 🧠 Глубокий поиск и человекоподобное мышление
[[JUMP:2:27]]

Два источника Reuters описали демонстрации Q*, проведенные ранее в этом году [2:40]. Модели якобы продемонстрировали способность отвечать на сложные научные и математические вопросы, которые недоступны современным коммерческим решениям [2:40]. Ранее издание Bloomberg также сообщало о демо-версиях некоего исследовательского проекта с «новыми человекоподобными навыками рассуждения» [2:53].

Ключевые особенности новой архитектуры:

*   Использование специализированных методов обработки модели после её предварительного обучения (pre-training) на огромных наборах данных [3:05].
*   Сэм Альтман и Марк Цукерберг (в интервью с Дуэшем Пателем) намекали, что грань между пре-трейнингом и финальной версией модели становится всё более размытой [3:33].
*   Процесс обучения становится постоянным и непрерывным, а не разовым событием [3:45].

Улучшенная способность к рассуждению, по словам автора, позволит ИИ бороться с галлюцинациями, планировать шаги, учитывать законы физического мира и заниматься обучением в контексте (in-context learning) [4:11]. Сам Сэм Альтман заявлял, что прогресс в области логических способностей (reasoning ability) является важнейшим направлением развития [4:25].

## 🛠 Технология STaR: Как ИИ учит сам себя
[[JUMP:5:05]]

Одним из ключевых элементов Strawberry является метод «пост-обучения» (post-training). Это адаптация базовых моделей для оттачивания их производительности в конкретных задачах после того, как они уже были обучены на массивах общих данных [5:19].

Вес Рот отмечает сходство Strawberry с методом STaR (Self-Taught Reasoner — «самоучка-логик»), разработанным в Стэнфорде [6:01]:

1.  **Создание цепочки рассуждений:** ИИ не просто выдает ответ, а генерирует логическое обоснование (rational) для каждого шага решения [6:15].
2.  **Итеративное улучшение:** Модель генерирует множество вариантов рассуждений, и те из них, что приводят к правильному ответу, используются для дальнейшего дообучения (fine-tuning) [7:18].
3.  **Синергия:** Улучшенные рассуждения создают более качественные данные для обучения, которые, в свою очередь, еще больше повышают качество рассуждений [7:32].

Профессор Стэнфорда Ноа Гудман утверждает, что метод STaR теоретически может позволить языковым моделям «превзойти человеческий интеллект» [8:10]. По мнению Гудмана, такая перспектива одновременно «захватывающая и пугающая» [8:23].

## 🚀 Агенты и «взрыв интеллекта»
[[JUMP:8:38]]

Внутренние документы OpenAI показывают, что компания стремится обучить Strawberry выполнению «задач с длинным горизонтом» (long horizon tasks) [8:38]. Речь идет об агентских способностях — возможности выполнять действия, требующие многих шагов и значительного времени.

Амбиции OpenAI в рамках проекта включают:

*   Создание датасета «глубокого исследования» (deep research dataset) [8:51].
*   Разработку CUA (Computer Using Agent) — агента, способного автономно пользоваться компьютером [9:05].
*   Автономный веб-серфинг и совершение действий на основе найденной информации [9:05].
*   Тестирование модели на задачах инженеров-программщиков и специалистов по машинному обучению [9:18].

Вес Рот проводит параллель с идеями Леопольда Ашенбреннера, бывшего сотрудника команды безопасности OpenAI [9:31]. Ашенбреннер в своей работе «Situational Awareness» утверждал, что ИИ не нужно уметь всё — ему достаточно научиться лишь одной вещи: **автоматизировать исследования в области самого ИИ** [9:46]. Если Strawberry сможет заменить ML-инженеров, это запустит цикл рекурсивного самосовершенствования, который Ашенбреннер называет «взрывом интеллекта» [10:00].

## 📉 Иерархия ИИ и загадочная GPT Mini
[[JUMP:11:05]]

Буквально за день до утечки OpenAI официально представила свою пятиуровневую шкалу прогресса на пути к AGI (общему искусственному интеллекту) [11:05]:

*   **Уровень 1:** Чат-боты (разговорный язык) — то, что мы имеем сейчас.
*   **Уровень 2:** Логики (Reasoners) — решение проблем на уровне человека с высоким IQ.
*   **Уровень 3:** Агенты (Systems) — системы, способные действовать автономно в течение нескольких дней.

Strawberry, судя по всему, нацелена на достижение уровней 2 и 3. В то же время на платформе Chatbot Arena была замечена новая модель под кодовым названием "upcoming-gpt-mini" [11:44].

Автор предполагает, что это может быть связано с оптимизацией расходов. Использование небольших моделей-маршрутизаторов позволяет направлять простые запросы на дешевые модели, а сложные — на мощные «логики» [12:10]. Подобные системы способны снизить затраты на инференс на 85%, сохраняя при этом 95% качества ответов [12:36]. В будущем Strawberry может стать тем самым «мозгом», который будет управлять целым созвездием более мелких и эффективных моделей [12:50].