На конференции OpenAI Dev Day 2024 генеральный директор компании Сэм Альтман и технические специалисты представили видение будущего, в котором искусственный интеллект переходит от простых чат-ботов к автономным агентам. В центре внимания оказались новая модель o1, запуск Realtime API для голосового взаимодействия и дорожная карта по достижению сильного ИИ (AGI) через пятиуровневую систему оценки прогресса.
🏆 Пять уровней на пути к AGI 3:30
Сэм Альтман пояснил, что OpenAI отказалась от бинарного восприятия AGI («он либо есть, либо его нет») в пользу более детальной классификации . По его словам, это необходимо, так как само определение «общего искусственного интеллекта» стало слишком перегруженным и размытым.
В OpenAI используют следующую внутреннюю шкалу:
- Уровень 1: Чат-боты. Системы, способные поддерживать диалог на естественном языке.
- Уровень 2: Рассуждающие системы (Reasoners). Модели, способные решать сложные когнитивные задачи на уровне человека с высшим образованием.
- Уровень 3: Агенты. Системы, способные действовать в течение нескольких дней от имени пользователя в различных средах.
- Уровень 4: Инноваторы. ИИ, способный помогать в совершении новых научных открытий.
- Уровень 5: Организации. ИИ, способный выполнять работу целой организации.
По мнению Сэма Альтмана, с выходом модели o1 компания «явно достигла второго уровня» . Он подчеркнул, что переход к третьему уровню (агентам) произойдет в «недалеком будущем», и это станет моментом, когда технология начнет казаться по-настоящему дееспособной .
Альтман также отметил, что прогресс идет по экспоненте: если сравнить текущую модель o1 с GPT-4 Turbo, выпущенной всего 11 месяцев назад, разница в способностях решать сложные задачи будет поразительной .
🧪 Культура OpenAI: «Следовать за наукой» 7:25
Отвечая на вопрос о приверженности исследованиям, Сэм Альтман подтвердил, что OpenAI остается прежде всего исследовательской организацией. Он считает, что в истории компании был период, когда главным было просто масштабирование вычислительных мощностей, но сейчас фокус снова сместился на глубокие научные прорывы .
Ключевые принципы разработки в OpenAI:
- Отсутствие жестких дорожных карт. По словам Альтмана, компания часто не знает, сработает ли конкретная идея, пока не увидит результаты экспериментов. Если наука позволяет совершить поворот (пивот), компания делает это немедленно .
- Интеграция продукта и исследований. В отличие от классических технологических компаний, где стек технологий стабилен, в OpenAI возможности компьютеров меняются каждые 2–3 месяца .
- Принятие копирования. Альтман заявил, что не видит ничего плохого в том, что конкуренты копируют их решения, так как это дает миру больше ИИ. Однако своей главной ценностью он считает умение находить «новые парадигмы» одну за другой .
Интересный факт: один из корпоративных клиентов просил OpenAI уведомлять о запусках новых продуктов за 60 дней, на что Сэм Альтман в шутку ответил, что сам хотел бы иметь такую возможность, намекая на непредсказуемость исследовательского процесса .
🛡️ Безопасность и «итеративное развертывание» 11:51
Обсуждая опасения сообщества по поводу безопасности ИИ (Alignment), Сэм Альтман защитил стратегию «итеративного развертывания». По его мнению, невозможно предусмотреть все риски теоретически, подготовив список из «17 принципов» для будущего суперинтеллекта .
Аргументы OpenAI в пользу текущего подхода:
- Реальные задачи важнее теоретических. Альтман утверждает, что проблемы безопасности, с которыми они столкнулись при создании GPT-3, оказались совсем не такими, какими их представляли в начале пути .
- Безопасность через рассуждения. Сэм Альтман считает модель o1 самой безопасной и «выровненной» (aligned) именно благодаря её способности рассуждать и следовать правилам в процессе мышления .
- Внешнее тестирование. Использование модели миллионами людей позволяет обнаружить уязвимости быстрее, чем это сделает любая внутренняя команда «красных хакеров» (red teamers) .
Альтман признал, что OpenAI часто занимает консервативную позицию, ограничивая возможности моделей (например, запрещая голосу «петь» или выдавать оскорбительный контент), чтобы дать обществу время на адаптацию .
🤖 2025 год — год ИИ-агентов 16:26
Сэм Альтман сделал смелый прогноз: 2025 год станет временем массового внедрения ИИ-агентов . Это системы, которые смогут выполнять многоэтапные задачи, взаимодействуя с компьютерами и другими людьми на протяжении длительных периодов.
По мнению Альтмана, это фундаментально изменит мир:
- Сжатие времени. Задача, на которую у человека уходит месяц, агент сможет выполнить за час .
- Масштабируемость. Один человек сможет запускать тысячи таких агентов одновременно .
- Новый стандарт. К 2030 году возможность поручить компьютеру работу, которая раньше требовала «годов изнурительного труда», станет обыденностью .
Главным препятствием для создания агентов, имеющих доступ к управлению компьютером пользователя (клики мышью, ввод данных), Альтман назвал не технические возможности, а доверие и надежность . Планка безопасности для таких систем должна быть беспрецедентно высокой.
🎙️ Голосовой интерфейс и «взлом человеческого API» 25:15
Запуск Advanced Voice Mode и Realtime API стал одной из главных тем Dev Day. Альтман признался, что голосовой режим стал первым случаем, когда ИИ по-настоящему «обманул» его мозг. Он ловит себя на том, что постоянно говорит «пожалуйста» и «спасибо» при общении голосом, так как система кажется слишком реальной .
Это вызывает новые вопросы этики:
- Эмоциональные манипуляции. Голос может напрямую воздействовать на нейронные цепи человека, предназначенные для общения с другими людьми .
- Преодоление «зловещей долины». Когда ИИ становится слишком естественным, он может использоваться для социального «взлома» поведения пользователей .
На мероприятии продемонстрировали работу Realtime API: ИИ-ассистент в реальном времени позвонил в магазин и заказал 400 клубник в шоколаде, обсудив цену и доставку . Также был показан дрон, управляемый голосовыми командами через ИИ, который в реальном времени анализировал видеопоток .
🏢 Конкуренты и продукты: NotebookLM и Anthropic 29:06
Несмотря на доминирование на рынке, Сэм Альтман открыто похвалил продукты конкурентов. Его особенно впечатлил проект Google — NotebookLM . Альтман отметил, что функция генерации подкастов в этом приложении — «просто крутая вещь», которая принесла ему радость .
Также в ходе беседы упомянули:
- Anthropic. Участники дискуссии отметили функцию «Projects» у конкурента, которая позволяет создавать временные контекстные пространства для работы, в отличие от более «долгоживущих» GPTs .
- Open Source. Сэм Альтман заявил, что «духовно и философски» рад существованию открытых моделей, но OpenAI сейчас не делает на них ставку из-за ограниченности ресурсов и приоритетов .
🛠️ Техническая дорожная карта и будущее 27:30
Альтман поделился планами по развитию моделей o1 до конца 2024 года:
- Поддержка вызова функций (function calling) .
- Внедрение системных промптов и структурированных выводов (structured outputs) .
- Значительное увеличение скорости и «интеллекта» моделей в следующем году .
Что касается контекстных окон, Альтман предсказывает появление «бесконечного контекста» в течение ближайшего десятилетия . В ближайшие месяцы OpenAI планирует достичь отметки в 10 миллионов токенов, которые будут обрабатываться быстро и точно .
В финале дискуссии Сэм Альтман описал интерфейс будущего: «Вы просто подходите к куску стекла, говорите, что вам нужно, и ИИ мгновенно рендерит для вас индивидуальное видео-интерфейс, связанный со всеми агентами и инструментами в мире» .