OpenAI Dev Day 2024: Сэм Альтман о переходе к ИИ-агентам, уровнях AGI и конкуренции с Google

На конференции OpenAI Dev Day 2024 генеральный директор компании Сэм Альтман и технические специалисты представили видение будущего, в котором искусственный интеллект переходит от простых чат-ботов к автономным агентам. В центре внимания оказались новая модель o1, запуск Realtime API для голосового взаимодействия и дорожная карта по достижению сильного ИИ (AGI) через пятиуровневую систему оценки прогресса.

🏆 Пять уровней на пути к AGI 3:30

Сэм Альтман пояснил, что OpenAI отказалась от бинарного восприятия AGI («он либо есть, либо его нет») в пользу более детальной классификации . По его словам, это необходимо, так как само определение «общего искусственного интеллекта» стало слишком перегруженным и размытым.

В OpenAI используют следующую внутреннюю шкалу:

Уровень 1: Чат-боты. Системы, способные поддерживать диалог на естественном языке.
Уровень 2: Рассуждающие системы (Reasoners). Модели, способные решать сложные когнитивные задачи на уровне человека с высшим образованием.
Уровень 3: Агенты. Системы, способные действовать в течение нескольких дней от имени пользователя в различных средах.
Уровень 4: Инноваторы. ИИ, способный помогать в совершении новых научных открытий.
Уровень 5: Организации. ИИ, способный выполнять работу целой организации.

По мнению Сэма Альтмана, с выходом модели o1 компания «явно достигла второго уровня» . Он подчеркнул, что переход к третьему уровню (агентам) произойдет в «недалеком будущем», и это станет моментом, когда технология начнет казаться по-настоящему дееспособной .

Альтман также отметил, что прогресс идет по экспоненте: если сравнить текущую модель o1 с GPT-4 Turbo, выпущенной всего 11 месяцев назад, разница в способностях решать сложные задачи будет поразительной .

🧪 Культура OpenAI: «Следовать за наукой» 7:25

Отвечая на вопрос о приверженности исследованиям, Сэм Альтман подтвердил, что OpenAI остается прежде всего исследовательской организацией. Он считает, что в истории компании был период, когда главным было просто масштабирование вычислительных мощностей, но сейчас фокус снова сместился на глубокие научные прорывы .

Ключевые принципы разработки в OpenAI:

Отсутствие жестких дорожных карт. По словам Альтмана, компания часто не знает, сработает ли конкретная идея, пока не увидит результаты экспериментов. Если наука позволяет совершить поворот (пивот), компания делает это немедленно .
Интеграция продукта и исследований. В отличие от классических технологических компаний, где стек технологий стабилен, в OpenAI возможности компьютеров меняются каждые 2–3 месяца .
Принятие копирования. Альтман заявил, что не видит ничего плохого в том, что конкуренты копируют их решения, так как это дает миру больше ИИ. Однако своей главной ценностью он считает умение находить «новые парадигмы» одну за другой .

Интересный факт: один из корпоративных клиентов просил OpenAI уведомлять о запусках новых продуктов за 60 дней, на что Сэм Альтман в шутку ответил, что сам хотел бы иметь такую возможность, намекая на непредсказуемость исследовательского процесса .

🛡️ Безопасность и «итеративное развертывание» 11:51

Обсуждая опасения сообщества по поводу безопасности ИИ (Alignment), Сэм Альтман защитил стратегию «итеративного развертывания». По его мнению, невозможно предусмотреть все риски теоретически, подготовив список из «17 принципов» для будущего суперинтеллекта .

Аргументы OpenAI в пользу текущего подхода:

Реальные задачи важнее теоретических. Альтман утверждает, что проблемы безопасности, с которыми они столкнулись при создании GPT-3, оказались совсем не такими, какими их представляли в начале пути .
Безопасность через рассуждения. Сэм Альтман считает модель o1 самой безопасной и «выровненной» (aligned) именно благодаря её способности рассуждать и следовать правилам в процессе мышления .
Внешнее тестирование. Использование модели миллионами людей позволяет обнаружить уязвимости быстрее, чем это сделает любая внутренняя команда «красных хакеров» (red teamers) .

Альтман признал, что OpenAI часто занимает консервативную позицию, ограничивая возможности моделей (например, запрещая голосу «петь» или выдавать оскорбительный контент), чтобы дать обществу время на адаптацию .

🤖 2025 год — год ИИ-агентов 16:26

Сэм Альтман сделал смелый прогноз: 2025 год станет временем массового внедрения ИИ-агентов . Это системы, которые смогут выполнять многоэтапные задачи, взаимодействуя с компьютерами и другими людьми на протяжении длительных периодов.

По мнению Альтмана, это фундаментально изменит мир:

Сжатие времени. Задача, на которую у человека уходит месяц, агент сможет выполнить за час .
Масштабируемость. Один человек сможет запускать тысячи таких агентов одновременно .
Новый стандарт. К 2030 году возможность поручить компьютеру работу, которая раньше требовала «годов изнурительного труда», станет обыденностью .

Главным препятствием для создания агентов, имеющих доступ к управлению компьютером пользователя (клики мышью, ввод данных), Альтман назвал не технические возможности, а доверие и надежность . Планка безопасности для таких систем должна быть беспрецедентно высокой.

🎙️ Голосовой интерфейс и «взлом человеческого API» 25:15

Запуск Advanced Voice Mode и Realtime API стал одной из главных тем Dev Day. Альтман признался, что голосовой режим стал первым случаем, когда ИИ по-настоящему «обманул» его мозг. Он ловит себя на том, что постоянно говорит «пожалуйста» и «спасибо» при общении голосом, так как система кажется слишком реальной .

Это вызывает новые вопросы этики:

Эмоциональные манипуляции. Голос может напрямую воздействовать на нейронные цепи человека, предназначенные для общения с другими людьми .
Преодоление «зловещей долины». Когда ИИ становится слишком естественным, он может использоваться для социального «взлома» поведения пользователей .

На мероприятии продемонстрировали работу Realtime API: ИИ-ассистент в реальном времени позвонил в магазин и заказал 400 клубник в шоколаде, обсудив цену и доставку . Также был показан дрон, управляемый голосовыми командами через ИИ, который в реальном времени анализировал видеопоток .

🏢 Конкуренты и продукты: NotebookLM и Anthropic 29:06

Несмотря на доминирование на рынке, Сэм Альтман открыто похвалил продукты конкурентов. Его особенно впечатлил проект Google — NotebookLM . Альтман отметил, что функция генерации подкастов в этом приложении — «просто крутая вещь», которая принесла ему радость .

Также в ходе беседы упомянули:

Anthropic. Участники дискуссии отметили функцию «Projects» у конкурента, которая позволяет создавать временные контекстные пространства для работы, в отличие от более «долгоживущих» GPTs .
Open Source. Сэм Альтман заявил, что «духовно и философски» рад существованию открытых моделей, но OpenAI сейчас не делает на них ставку из-за ограниченности ресурсов и приоритетов .

🛠️ Техническая дорожная карта и будущее 27:30

Альтман поделился планами по развитию моделей o1 до конца 2024 года:

Поддержка вызова функций (function calling) .
Внедрение системных промптов и структурированных выводов (structured outputs) .
Значительное увеличение скорости и «интеллекта» моделей в следующем году .

Что касается контекстных окон, Альтман предсказывает появление «бесконечного контекста» в течение ближайшего десятилетия . В ближайшие месяцы OpenAI планирует достичь отметки в 10 миллионов токенов, которые будут обрабатываться быстро и точно .

В финале дискуссии Сэм Альтман описал интерфейс будущего: «Вы просто подходите к куску стекла, говорите, что вам нужно, и ИИ мгновенно рендерит для вас индивидуальное видео-интерфейс, связанный со всеми агентами и инструментами в мире» .