OpenAI готовит проект Strawberry: утечка Reuters раскрыла детали наследника Q*

Wes Roth 85,1 тыс. 13 мин 4 мин 13.07.2024
Главное

OpenAI вновь оказалась в центре внимания индустрии после того, как агентство Reuters опубликовало детали о секретной разработке под кодовым названием Strawberry («Земляника»). По данным журналистов, за этим именем скрывается проект, ранее известный как Q* (Q-star), который может стать тем самым технологическим прорывом в области логического мышления ИИ, о котором давно ходят слухи. Ведущий канала Wes Roth анализирует внутренние документы компании и объясняет, почему новая технология может привести к «взрыву интеллекта».

🍓 От Q* к Strawberry: Возвращение «секретного оружия» OpenAI 0:00

Согласно отчету Reuters, OpenAI работает над новой технологией логического вывода под кодовым названием Strawberry . Судя по имеющейся информации, это тот самый проект Q*, новости о котором впервые появились в ноябре-декабре прошлого года во время краткосрочного увольнения Сэма Альтмана . Тогда предполагалось, что это масштабный алгоритмический прорыв, позволяющий ИИ-моделям значительно лучше справляться с математикой, обучением и постановкой долгосрочных целей .

Основные факты об утечке:

По мнению Веса Рота, именно успехи в разработке Q* могли в свое время напугать Илью Суцкевера, что и привело к ноябрьскому кризису в руководстве компании .

🧠 Глубокий поиск и человекоподобное мышление 2:27

Два источника Reuters описали демонстрации Q*, проведенные ранее в этом году . Модели якобы продемонстрировали способность отвечать на сложные научные и математические вопросы, которые недоступны современным коммерческим решениям . Ранее издание Bloomberg также сообщало о демо-версиях некоего исследовательского проекта с «новыми человекоподобными навыками рассуждения» .

Ключевые особенности новой архитектуры:

Улучшенная способность к рассуждению, по словам автора, позволит ИИ бороться с галлюцинациями, планировать шаги, учитывать законы физического мира и заниматься обучением в контексте (in-context learning) . Сам Сэм Альтман заявлял, что прогресс в области логических способностей (reasoning ability) является важнейшим направлением развития .

🛠 Технология STaR: Как ИИ учит сам себя 5:05

Одним из ключевых элементов Strawberry является метод «пост-обучения» (post-training). Это адаптация базовых моделей для оттачивания их производительности в конкретных задачах после того, как они уже были обучены на массивах общих данных .

Вес Рот отмечает сходство Strawberry с методом STaR (Self-Taught Reasoner — «самоучка-логик»), разработанным в Стэнфорде :

  1. Создание цепочки рассуждений: ИИ не просто выдает ответ, а генерирует логическое обоснование (rational) для каждого шага решения .
  2. Итеративное улучшение: Модель генерирует множество вариантов рассуждений, и те из них, что приводят к правильному ответу, используются для дальнейшего дообучения (fine-tuning) .
  3. Синергия: Улучшенные рассуждения создают более качественные данные для обучения, которые, в свою очередь, еще больше повышают качество рассуждений .

Профессор Стэнфорда Ноа Гудман утверждает, что метод STaR теоретически может позволить языковым моделям «превзойти человеческий интеллект» . По мнению Гудмана, такая перспектива одновременно «захватывающая и пугающая» .

🚀 Агенты и «взрыв интеллекта» 8:38

Внутренние документы OpenAI показывают, что компания стремится обучить Strawberry выполнению «задач с длинным горизонтом» (long horizon tasks) . Речь идет об агентских способностях — возможности выполнять действия, требующие многих шагов и значительного времени.

Амбиции OpenAI в рамках проекта включают:

Вес Рот проводит параллель с идеями Леопольда Ашенбреннера, бывшего сотрудника команды безопасности OpenAI . Ашенбреннер в своей работе «Situational Awareness» утверждал, что ИИ не нужно уметь всё — ему достаточно научиться лишь одной вещи: автоматизировать исследования в области самого ИИ . Если Strawberry сможет заменить ML-инженеров, это запустит цикл рекурсивного самосовершенствования, который Ашенбреннер называет «взрывом интеллекта» .

📉 Иерархия ИИ и загадочная GPT Mini 11:05

Буквально за день до утечки OpenAI официально представила свою пятиуровневую шкалу прогресса на пути к AGI (общему искусственному интеллекту) :

Strawberry, судя по всему, нацелена на достижение уровней 2 и 3. В то же время на платформе Chatbot Arena была замечена новая модель под кодовым названием "upcoming-gpt-mini" .

Автор предполагает, что это может быть связано с оптимизацией расходов. Использование небольших моделей-маршрутизаторов позволяет направлять простые запросы на дешевые модели, а сложные — на мощные «логики» . Подобные системы способны снизить затраты на инференс на 85%, сохраняя при этом 95% качества ответов . В будущем Strawberry может стать тем самым «мозгом», который будет управлять целым созвездием более мелких и эффективных моделей .

💬 Цитаты

«Strawberry включает в себя специализированный способ так называемого пост-обучения моделей ИИ OpenAI или адаптации базовых моделей для оттачивания их производительности.»

«ИИ не обязан становиться хорошим в улучшении всего; ему достаточно стать хорошим в улучшении только одной вещи — самого себя.»

Вес Рот (цитируя Леопольда Ашенбреннера) 09:46
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Q* (Q-star)
Секретный проект OpenAI, предположительно объединяющий обучение с подкреплением и поиск по деревьям для решения математических задач.
STaR (Self-Taught Reasoner)
Метод обучения, при котором модель итеративно генерирует обоснования своих ответов и учится на тех, что оказались верными.
Long Horizon Tasks
Сложные задачи, требующие планирования и выполнения множества последовательных действий в течение длительного времени.
Post-training
Этап доработки нейросети после основного обучения, включающий fine-tuning и обучение с подкреплением (RLHF).
📊 Цифры
🗓 Хронология
  1. Ноябрь 2023 Первые упоминания о проекте Q* на фоне временного увольнения Сэма Альтмана.
  2. Начало 2024 Демонстрация возможностей Q* сотрудникам OpenAI, решение сложных задач.
  3. Июль 2024 Публикация Reuters об официальном кодовом названии Strawberry и деталях проекта.
  4. Июль 2024 OpenAI официально представляет 5 уровней развития ИИ.
⚖️ Другая сторона
Искусственный интеллект OpenAI Strawberry Q-star Sam Altman Leopold Aschenbrenner