OpenAI вновь оказалась в центре внимания индустрии после того, как агентство Reuters опубликовало детали о секретной разработке под кодовым названием Strawberry («Земляника»). По данным журналистов, за этим именем скрывается проект, ранее известный как Q* (Q-star), который может стать тем самым технологическим прорывом в области логического мышления ИИ, о котором давно ходят слухи. Ведущий канала Wes Roth анализирует внутренние документы компании и объясняет, почему новая технология может привести к «взрыву интеллекта».
🍓 От Q* к Strawberry: Возвращение «секретного оружия» OpenAI 0:00
Согласно отчету Reuters, OpenAI работает над новой технологией логического вывода под кодовым названием Strawberry . Судя по имеющейся информации, это тот самый проект Q*, новости о котором впервые появились в ноябре-декабре прошлого года во время краткосрочного увольнения Сэма Альтмана . Тогда предполагалось, что это масштабный алгоритмический прорыв, позволяющий ИИ-моделям значительно лучше справляться с математикой, обучением и постановкой долгосрочных целей .
Основные факты об утечке:
- Сэм Альтман ранее подтверждал реальность утечки о Q*, хотя и называл её «прискорбной», не раскрывая деталей .
- Проект Strawberry описывается как «тщательно охраняемый секрет» даже внутри самой OpenAI .
- Цель проекта — позволить ИИ не просто генерировать ответы, а планировать свои действия наперед для автономной навигации в интернете .
- В OpenAI этот процесс называют «глубоким поиском» (deep search) .
По мнению Веса Рота, именно успехи в разработке Q* могли в свое время напугать Илью Суцкевера, что и привело к ноябрьскому кризису в руководстве компании .
🧠 Глубокий поиск и человекоподобное мышление 2:27
Два источника Reuters описали демонстрации Q*, проведенные ранее в этом году . Модели якобы продемонстрировали способность отвечать на сложные научные и математические вопросы, которые недоступны современным коммерческим решениям . Ранее издание Bloomberg также сообщало о демо-версиях некоего исследовательского проекта с «новыми человекоподобными навыками рассуждения» .
Ключевые особенности новой архитектуры:
- Использование специализированных методов обработки модели после её предварительного обучения (pre-training) на огромных наборах данных .
- Сэм Альтман и Марк Цукерберг (в интервью с Дуэшем Пателем) намекали, что грань между пре-трейнингом и финальной версией модели становится всё более размытой .
- Процесс обучения становится постоянным и непрерывным, а не разовым событием .
Улучшенная способность к рассуждению, по словам автора, позволит ИИ бороться с галлюцинациями, планировать шаги, учитывать законы физического мира и заниматься обучением в контексте (in-context learning) . Сам Сэм Альтман заявлял, что прогресс в области логических способностей (reasoning ability) является важнейшим направлением развития .
🛠 Технология STaR: Как ИИ учит сам себя 5:05
Одним из ключевых элементов Strawberry является метод «пост-обучения» (post-training). Это адаптация базовых моделей для оттачивания их производительности в конкретных задачах после того, как они уже были обучены на массивах общих данных .
Вес Рот отмечает сходство Strawberry с методом STaR (Self-Taught Reasoner — «самоучка-логик»), разработанным в Стэнфорде :
- Создание цепочки рассуждений: ИИ не просто выдает ответ, а генерирует логическое обоснование (rational) для каждого шага решения .
- Итеративное улучшение: Модель генерирует множество вариантов рассуждений, и те из них, что приводят к правильному ответу, используются для дальнейшего дообучения (fine-tuning) .
- Синергия: Улучшенные рассуждения создают более качественные данные для обучения, которые, в свою очередь, еще больше повышают качество рассуждений .
Профессор Стэнфорда Ноа Гудман утверждает, что метод STaR теоретически может позволить языковым моделям «превзойти человеческий интеллект» . По мнению Гудмана, такая перспектива одновременно «захватывающая и пугающая» .
🚀 Агенты и «взрыв интеллекта» 8:38
Внутренние документы OpenAI показывают, что компания стремится обучить Strawberry выполнению «задач с длинным горизонтом» (long horizon tasks) . Речь идет об агентских способностях — возможности выполнять действия, требующие многих шагов и значительного времени.
Амбиции OpenAI в рамках проекта включают:
- Создание датасета «глубокого исследования» (deep research dataset) .
- Разработку CUA (Computer Using Agent) — агента, способного автономно пользоваться компьютером .
- Автономный веб-серфинг и совершение действий на основе найденной информации .
- Тестирование модели на задачах инженеров-программщиков и специалистов по машинному обучению .
Вес Рот проводит параллель с идеями Леопольда Ашенбреннера, бывшего сотрудника команды безопасности OpenAI . Ашенбреннер в своей работе «Situational Awareness» утверждал, что ИИ не нужно уметь всё — ему достаточно научиться лишь одной вещи: автоматизировать исследования в области самого ИИ . Если Strawberry сможет заменить ML-инженеров, это запустит цикл рекурсивного самосовершенствования, который Ашенбреннер называет «взрывом интеллекта» .
📉 Иерархия ИИ и загадочная GPT Mini 11:05
Буквально за день до утечки OpenAI официально представила свою пятиуровневую шкалу прогресса на пути к AGI (общему искусственному интеллекту) :
- Уровень 1: Чат-боты (разговорный язык) — то, что мы имеем сейчас.
- Уровень 2: Логики (Reasoners) — решение проблем на уровне человека с высоким IQ.
- Уровень 3: Агенты (Systems) — системы, способные действовать автономно в течение нескольких дней.
Strawberry, судя по всему, нацелена на достижение уровней 2 и 3. В то же время на платформе Chatbot Arena была замечена новая модель под кодовым названием "upcoming-gpt-mini" .
Автор предполагает, что это может быть связано с оптимизацией расходов. Использование небольших моделей-маршрутизаторов позволяет направлять простые запросы на дешевые модели, а сложные — на мощные «логики» . Подобные системы способны снизить затраты на инференс на 85%, сохраняя при этом 95% качества ответов . В будущем Strawberry может стать тем самым «мозгом», который будет управлять целым созвездием более мелких и эффективных моделей .