# OpenAI Dev Day 2024: Сэм Альтман о переходе к ИИ-агентам, уровнях AGI и конкуренции с Google

Источник: https://www.youtube.com/watch?v=UB47ajBTvs0
Канал: Wes Roth
Опубликовано: 02.10.2024

---

На конференции OpenAI Dev Day 2024 генеральный директор компании Сэм Альтман и технические специалисты представили видение будущего, в котором искусственный интеллект переходит от простых чат-ботов к автономным агентам. В центре внимания оказались новая модель o1, запуск Realtime API для голосового взаимодействия и дорожная карта по достижению сильного ИИ (AGI) через пятиуровневую систему оценки прогресса.

## 🏆 Пять уровней на пути к AGI
[[JUMP:03:30]]

Сэм Альтман пояснил, что OpenAI отказалась от бинарного восприятия AGI («он либо есть, либо его нет») в пользу более детальной классификации [04:10]. По его словам, это необходимо, так как само определение «общего искусственного интеллекта» стало слишком перегруженным и размытым.

В OpenAI используют следующую внутреннюю шкалу:

*   **Уровень 1: Чат-боты.** Системы, способные поддерживать диалог на естественном языке.
*   **Уровень 2: Рассуждающие системы (Reasoners).** Модели, способные решать сложные когнитивные задачи на уровне человека с высшим образованием.
*   **Уровень 3: Агенты.** Системы, способные действовать в течение нескольких дней от имени пользователя в различных средах.
*   **Уровень 4: Инноваторы.** ИИ, способный помогать в совершении новых научных открытий.
*   **Уровень 5: Организации.** ИИ, способный выполнять работу целой организации.

По мнению Сэма Альтмана, с выходом модели o1 компания «явно достигла второго уровня» [04:24]. Он подчеркнул, что переход к третьему уровню (агентам) произойдет в «недалеком будущем», и это станет моментом, когда технология начнет казаться по-настоящему дееспособной [04:50].

Альтман также отметил, что прогресс идет по экспоненте: если сравнить текущую модель o1 с GPT-4 Turbo, выпущенной всего 11 месяцев назад, разница в способностях решать сложные задачи будет поразительной [05:41].

## 🧪 Культура OpenAI: «Следовать за наукой»
[[JUMP:07:25]]

Отвечая на вопрос о приверженности исследованиям, Сэм Альтман подтвердил, что OpenAI остается прежде всего исследовательской организацией. Он считает, что в истории компании был период, когда главным было просто масштабирование вычислительных мощностей, но сейчас фокус снова сместился на глубокие научные прорывы [07:38].

Ключевые принципы разработки в OpenAI:

*   **Отсутствие жестких дорожных карт.** По словам Альтмана, компания часто не знает, сработает ли конкретная идея, пока не увидит результаты экспериментов. Если наука позволяет совершить поворот (пивот), компания делает это немедленно [10:57].
*   **Интеграция продукта и исследований.** В отличие от классических технологических компаний, где стек технологий стабилен, в OpenAI возможности компьютеров меняются каждые 2–3 месяца [09:50].
*   **Принятие копирования.** Альтман заявил, что не видит ничего плохого в том, что конкуренты копируют их решения, так как это дает миру больше ИИ. Однако своей главной ценностью он считает умение находить «новые парадигмы» одну за другой [08:31].

Интересный факт: один из корпоративных клиентов просил OpenAI уведомлять о запусках новых продуктов за 60 дней, на что Сэм Альтман в шутку ответил, что сам хотел бы иметь такую возможность, намекая на непредсказуемость исследовательского процесса [11:22].

## 🛡️ Безопасность и «итеративное развертывание»
[[JUMP:11:51]]

Обсуждая опасения сообщества по поводу безопасности ИИ (Alignment), Сэм Альтман защитил стратегию «итеративного развертывания». По его мнению, невозможно предусмотреть все риски теоретически, подготовив список из «17 принципов» для будущего суперинтеллекта [13:00].

Аргументы OpenAI в пользу текущего подхода:

*   **Реальные задачи важнее теоретических.** Альтман утверждает, что проблемы безопасности, с которыми они столкнулись при создании GPT-3, оказались совсем не такими, какими их представляли в начале пути [13:52].
*   **Безопасность через рассуждения.** Сэм Альтман считает модель o1 самой безопасной и «выровненной» (aligned) именно благодаря её способности рассуждать и следовать правилам в процессе мышления [13:13].
*   **Внешнее тестирование.** Использование модели миллионами людей позволяет обнаружить уязвимости быстрее, чем это сделает любая внутренняя команда «красных хакеров» (red teamers) [15:47].

Альтман признал, что OpenAI часто занимает консервативную позицию, ограничивая возможности моделей (например, запрещая голосу «петь» или выдавать оскорбительный контент), чтобы дать обществу время на адаптацию [22:40].

## 🤖 2025 год — год ИИ-агентов
[[JUMP:16:26]]

Сэм Альтман сделал смелый прогноз: 2025 год станет временем массового внедрения ИИ-агентов [16:52]. Это системы, которые смогут выполнять многоэтапные задачи, взаимодействуя с компьютерами и другими людьми на протяжении длительных периодов.

По мнению Альтмана, это фундаментально изменит мир:

*   **Сжатие времени.** Задача, на которую у человека уходит месяц, агент сможет выполнить за час [18:35].
*   **Масштабируемость.** Один человек сможет запускать тысячи таких агентов одновременно [18:48].
*   **Новый стандарт.** К 2030 году возможность поручить компьютеру работу, которая раньше требовала «годов изнурительного труда», станет обыденностью [18:55].

Главным препятствием для создания агентов, имеющих доступ к управлению компьютером пользователя (клики мышью, ввод данных), Альтман назвал не технические возможности, а доверие и надежность [20:55]. Планка безопасности для таких систем должна быть беспрецедентно высокой.

## 🎙️ Голосовой интерфейс и «взлом человеческого API»
[[JUMP:25:15]]

Запуск Advanced Voice Mode и Realtime API стал одной из главных тем Dev Day. Альтман признался, что голосовой режим стал первым случаем, когда ИИ по-настоящему «обманул» его мозг. Он ловит себя на том, что постоянно говорит «пожалуйста» и «спасибо» при общении голосом, так как система кажется слишком реальной [25:46].

Это вызывает новые вопросы этики:

*   **Эмоциональные манипуляции.** Голос может напрямую воздействовать на нейронные цепи человека, предназначенные для общения с другими людьми [26:39].
*   **Преодоление «зловещей долины».** Когда ИИ становится слишком естественным, он может использоваться для социального «взлома» поведения пользователей [26:52].

На мероприятии продемонстрировали работу Realtime API: ИИ-ассистент в реальном времени позвонил в магазин и заказал 400 клубник в шоколаде, обсудив цену и доставку [56:19]. Также был показан дрон, управляемый голосовыми командами через ИИ, который в реальном времени анализировал видеопоток [58:45].

## 🏢 Конкуренты и продукты: NotebookLM и Anthropic
[[JUMP:29:06]]

Несмотря на доминирование на рынке, Сэм Альтман открыто похвалил продукты конкурентов. Его особенно впечатлил проект Google — **NotebookLM** [29:18]. Альтман отметил, что функция генерации подкастов в этом приложении — «просто крутая вещь», которая принесла ему радость [29:33].

Также в ходе беседы упомянули:

*   **Anthropic.** Участники дискуссии отметили функцию «Projects» у конкурента, которая позволяет создавать временные контекстные пространства для работы, в отличие от более «долгоживущих» GPTs [30:27].
*   **Open Source.** Сэм Альтман заявил, что «духовно и философски» рад существованию открытых моделей, но OpenAI сейчас не делает на них ставку из-за ограниченности ресурсов и приоритетов [41:06].

## 🛠️ Техническая дорожная карта и будущее
[[JUMP:27:30]]

Альтман поделился планами по развитию моделей o1 до конца 2024 года:

1.  Поддержка вызова функций (function calling) [28:00].
2.  Внедрение системных промптов и структурированных выводов (structured outputs) [28:07].
3.  Значительное увеличение скорости и «интеллекта» моделей в следующем году [28:46].

Что касается контекстных окон, Альтман предсказывает появление «бесконечного контекста» в течение ближайшего десятилетия [44:57]. В ближайшие месяцы OpenAI планирует достичь отметки в 10 миллионов токенов, которые будут обрабатываться быстро и точно [45:11].

В финале дискуссии Сэм Альтман описал интерфейс будущего: «Вы просто подходите к куску стекла, говорите, что вам нужно, и ИИ мгновенно рендерит для вас индивидуальное видео-интерфейс, связанный со всеми агентами и инструментами в мире» [48:01].