На конференции OpenAI Dev Day в Лондоне компания представила серию живых демонстраций новой модели o1, которые демонстрируют переход от простых чат-ботов к полноценным автономным агентам. Автор канала Wes Roth анализирует показанные кейсы — от управления дронами и ведения телефонных переговоров до глубоких изменений в образовательной системе. Генеральный директор OpenAI Сэм Альтман также поделился своим видением будущего «агентов», которые смогут выполнять многодневные задачи, работая наравне с квалифицированными сотрудниками.
🤖 Модель o1: От написания кода до управления физическими объектами 1:08
Одной из самых впечатляющих демонстраций на мероприятии в Лондоне стал процесс создания системы управления дроном «с нуля» . Разработчик использовал модель o1 в среде Cursor для написания серверной части и логики взаимодействия с устройством.
Ключевые этапы демонстрации:
- Генерация архитектуры: Модель o1 подготовила React-файл с интерфейсом управления и пустой серверный код .
- Интеграция компонентов: ИИ самостоятельно определил, как связать кнопки интерфейса с командами дрона, и реализовал передачу видеопотока через WebSockets в реальном времени .
- Автономная отладка: Модель правильно интерпретировала функции кнопок и подготовила события
onClickбез детальных подсказок со стороны человека .
По завершении кодинга дрон успешно подключился к локальной сети Wi-Fi, считал уровень заряда батареи и совершил взлет, полностью подчиняясь командам из созданного ИИ приложения . Вес Рот отмечает, что это подтверждает его прошлогодний прогноз: в ближайшие 5–10 лет LLM будут интегрированы в каждое устройство — от термостатов до автомобилей .
🥧 Переговоры и торговля: ИИ-агент на телефоне 5:43
Следующий этап демонстрации касался Realtime API и возможности ИИ взаимодействовать с миром через телефонные звонки. В рамках сценария ИИ-ассистент планировал поездку в Лондон и Сингапур, бронировал отели и искал места для перекуса .
Наиболее показательным стал момент заказа 200 пирогов для конференции :
- Постановка задачи: Пользователь попросил ИИ позвонить в магазин и заказать 100 мясных и 100 вегетарианских пирогов, ограничив бюджет суммой в £1000 .
- Процесс переговоров: ИИ позвонил реальному (в рамках демо) человеку. Когда продавец озвучил цену в £1200, ИИ не просто сообщил о превышении лимита, а начал торговаться .
- Результат: ИИ предложил сбить цену до £800, в итоге стороны сошлись на £1000 при условии упоминания магазина на мероприятии .
Вес Рот подчеркивает, что способность ИИ к «хагглингу» (торговле) была неожиданной . По его мнению, это предвещает начало «гонки вооружений» среди ботов: появятся наступательные боты для выбивания скидок и оборонительные боты для защиты интересов бизнеса от автоматизированных звонков .
🎓 Образование и «Проблема двух сигм» 12:37
Демонстрация образовательных возможностей показала, как advanced voice mode может работать в качестве интерактивного репетитора. ИИ не просто отвечает на вопросы о планетах или вулканах Марса, но и мгновенно генерирует визуальный контент — например, круговые диаграммы состава поверхности Земли прямо в процессе разговора .
Вес Рот считает, что ИИ может решить фундаментальную педагогическую «Проблему двух сигм» (Two Sigma Problem) :
- Суть проблемы: Исследования показывают, что индивидуальное обучение (один на один с тьютором) повышает успеваемость студента на два стандартных отклонения по сравнению с обычным классом .
- Роль ИИ: До сих пор у человечества не было ресурсов обеспечить каждому ребенку персонального учителя. Масштабируемые LLM могут стать такими наставниками, доступными в любой точке мира и на любом языке .
🌐 Новые инструменты: ChatGPT Search и Desktop-версия 16:51
OpenAI также объявила о запуске ChatGPT Search — прямого конкурента Perplexity. Инструмент позволяет получать ответы с актуальными ссылками на источники (AP News, Reuters, Wikipedia) .
Кроме того, продвинутый голосовой режим (Advanced Voice Mode) теперь доступен в десктопных приложениях для Windows и Mac OS . Вес Рот отмечает, что такие инструменты делают взаимодействие с ИИ бесшовным, позволяя использовать его в фоновом режиме во время работы за компьютером.
🎙️ Интервью Сэма Альтмана: Будущее агентов и логики 18:13
Сэм Альтман, выступая на конференции, прояснил свое понимание термина «ИИ-агенты». По его мнению, многие ошибочно воспринимают агентов лишь как инструменты для простых действий вроде бронирования столика в ресторане .
Ключевые тезисы Альтмана:
- Масштабируемость действий: Агент будущего — это не тот, кто звонит в один ресторан, а тот, кто может обзвонить 300 заведений одновременно, чтобы найти лучшее предложение, которое человек физически не успел бы обработать .
- Старший коллега: Альтман видит идеального агента как «очень умного старшего коллегу», которому можно поручить задачу на 2 недели, и он выполнит её автономно, обращаясь за уточнениями только в критических точках .
- Модель ценообразования: OpenAI пока не знает, как изменится стоимость услуг. Альтман предполагает переход от оплаты «за место» (per seat) к оплате за вычислительные мощности (GPU), которые тратятся на решение конкретной проблемы клиента .
- Приоритет рассуждений (Reasoning): Главным фокусом компании остается улучшение способности моделей к логическим рассуждениям, что и реализовано в семействе o1 . Именно это, по словам Альтмана, разблокирует следующий масштабный скачок ценности технологии.
Альтман также затронул тему культуры OpenAI, отметив, что их «секретный соус» — это способность раз за разом доказывать осуществимость того, что другие считают невозможным . Как только лаборатория показывает результат, другие могут его скопировать, но именно первый шаг требует уникальной корпоративной культуры, которую Альтман планирует когда-нибудь описать в книге .