Сэм Альтман об ИИ-агентах: «Это будет похоже на очень умного старшего коллегу»

Wes Roth 31,3 тыс. 28 мин 4 мин 01.11.2024
Главное

На конференции OpenAI Dev Day в Лондоне компания представила серию живых демонстраций новой модели o1, которые демонстрируют переход от простых чат-ботов к полноценным автономным агентам. Автор канала Wes Roth анализирует показанные кейсы — от управления дронами и ведения телефонных переговоров до глубоких изменений в образовательной системе. Генеральный директор OpenAI Сэм Альтман также поделился своим видением будущего «агентов», которые смогут выполнять многодневные задачи, работая наравне с квалифицированными сотрудниками.

🤖 Модель o1: От написания кода до управления физическими объектами 1:08

Одной из самых впечатляющих демонстраций на мероприятии в Лондоне стал процесс создания системы управления дроном «с нуля» . Разработчик использовал модель o1 в среде Cursor для написания серверной части и логики взаимодействия с устройством.

Ключевые этапы демонстрации:

По завершении кодинга дрон успешно подключился к локальной сети Wi-Fi, считал уровень заряда батареи и совершил взлет, полностью подчиняясь командам из созданного ИИ приложения . Вес Рот отмечает, что это подтверждает его прошлогодний прогноз: в ближайшие 5–10 лет LLM будут интегрированы в каждое устройство — от термостатов до автомобилей .

🥧 Переговоры и торговля: ИИ-агент на телефоне 5:43

Следующий этап демонстрации касался Realtime API и возможности ИИ взаимодействовать с миром через телефонные звонки. В рамках сценария ИИ-ассистент планировал поездку в Лондон и Сингапур, бронировал отели и искал места для перекуса .

Наиболее показательным стал момент заказа 200 пирогов для конференции :

  1. Постановка задачи: Пользователь попросил ИИ позвонить в магазин и заказать 100 мясных и 100 вегетарианских пирогов, ограничив бюджет суммой в £1000 .
  2. Процесс переговоров: ИИ позвонил реальному (в рамках демо) человеку. Когда продавец озвучил цену в £1200, ИИ не просто сообщил о превышении лимита, а начал торговаться .
  3. Результат: ИИ предложил сбить цену до £800, в итоге стороны сошлись на £1000 при условии упоминания магазина на мероприятии .

Вес Рот подчеркивает, что способность ИИ к «хагглингу» (торговле) была неожиданной . По его мнению, это предвещает начало «гонки вооружений» среди ботов: появятся наступательные боты для выбивания скидок и оборонительные боты для защиты интересов бизнеса от автоматизированных звонков .

🎓 Образование и «Проблема двух сигм» 12:37

Демонстрация образовательных возможностей показала, как advanced voice mode может работать в качестве интерактивного репетитора. ИИ не просто отвечает на вопросы о планетах или вулканах Марса, но и мгновенно генерирует визуальный контент — например, круговые диаграммы состава поверхности Земли прямо в процессе разговора .

Вес Рот считает, что ИИ может решить фундаментальную педагогическую «Проблему двух сигм» (Two Sigma Problem) :

🌐 Новые инструменты: ChatGPT Search и Desktop-версия 16:51

OpenAI также объявила о запуске ChatGPT Search — прямого конкурента Perplexity. Инструмент позволяет получать ответы с актуальными ссылками на источники (AP News, Reuters, Wikipedia) .

Кроме того, продвинутый голосовой режим (Advanced Voice Mode) теперь доступен в десктопных приложениях для Windows и Mac OS . Вес Рот отмечает, что такие инструменты делают взаимодействие с ИИ бесшовным, позволяя использовать его в фоновом режиме во время работы за компьютером.

🎙️ Интервью Сэма Альтмана: Будущее агентов и логики 18:13

Сэм Альтман, выступая на конференции, прояснил свое понимание термина «ИИ-агенты». По его мнению, многие ошибочно воспринимают агентов лишь как инструменты для простых действий вроде бронирования столика в ресторане .

Ключевые тезисы Альтмана:

Альтман также затронул тему культуры OpenAI, отметив, что их «секретный соус» — это способность раз за разом доказывать осуществимость того, что другие считают невозможным . Как только лаборатория показывает результат, другие могут его скопировать, но именно первый шаг требует уникальной корпоративной культуры, которую Альтман планирует когда-нибудь описать в книге .

💬 Цитаты

«Агент — это не просто возможность забронировать столик. Это кто-то вроде очень умного старшего коллеги, с которым можно сотрудничать над проектом.»

Сэм Альтман 20:10

«Будущие 5–10 лет станут гонкой по внедрению LLM во всё: в вашу машину, термостат и, судя по всему, в ваш дрон.»

«Способность рассуждать (reasoning) — наша самая важная область внимания на данный момент.»

Сэм Альтман 23:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Two Sigma Problem
Педагогический феномен, согласно которому ученики, обучающиеся индивидуально, показывают результаты на два стандартных отклонения выше, чем в группе.
Realtime API
Интерфейс программирования, позволяющий ИИ общаться голосом и взаимодействовать с инструментами в режиме реального времени с минимальной задержкой.
Reasoning
Способность ИИ последовательно рассуждать и проверять свои выводы перед выдачей ответа, характерная для моделей серии o1.
📊 Цифры
🗓 Хронология
  1. Октябрь 2024 Проведение OpenAI Dev Day в Лондоне и запуск ChatGPT Search.
⚖️ Другая сторона
Искусственный интеллект OpenAI Sam Altman Wes Roth ChatGPT Search OpenAI o1