# Сэм Альтман об ИИ-агентах: «Это будет похоже на очень умного старшего коллегу»

Источник: https://www.youtube.com/watch?v=RVZaE4431U8
Канал: Wes Roth
Опубликовано: 01.11.2024

---

На конференции OpenAI Dev Day в Лондоне компания представила серию живых демонстраций новой модели o1, которые демонстрируют переход от простых чат-ботов к полноценным автономным агентам. Автор канала Wes Roth анализирует показанные кейсы — от управления дронами и ведения телефонных переговоров до глубоких изменений в образовательной системе. Генеральный директор OpenAI Сэм Альтман также поделился своим видением будущего «агентов», которые смогут выполнять многодневные задачи, работая наравне с квалифицированными сотрудниками.

## 🤖 Модель o1: От написания кода до управления физическими объектами
[[JUMP:01:08]]

Одной из самых впечатляющих демонстраций на мероприятии в Лондоне стал процесс создания системы управления дроном «с нуля» [01:21]. Разработчик использовал модель o1 в среде Cursor для написания серверной части и логики взаимодействия с устройством.

Ключевые этапы демонстрации:

*   **Генерация архитектуры:** Модель o1 подготовила React-файл с интерфейсом управления и пустой серверный код [01:48].
*   **Интеграция компонентов:** ИИ самостоятельно определил, как связать кнопки интерфейса с командами дрона, и реализовал передачу видеопотока через WebSockets в реальном времени [02:14].
*   **Автономная отладка:** Модель правильно интерпретировала функции кнопок и подготовила события `onClick` без детальных подсказок со стороны человека [02:41].

По завершении кодинга дрон успешно подключился к локальной сети Wi-Fi, считал уровень заряда батареи и совершил взлет, полностью подчиняясь командам из созданного ИИ приложения [03:52]. Вес Рот отмечает, что это подтверждает его прошлогодний прогноз: в ближайшие 5–10 лет LLM будут интегрированы в каждое устройство — от термостатов до автомобилей [05:03].

## 🥧 Переговоры и торговля: ИИ-агент на телефоне
[[JUMP:05:43]]

Следующий этап демонстрации касался Realtime API и возможности ИИ взаимодействовать с миром через телефонные звонки. В рамках сценария ИИ-ассистент планировал поездку в Лондон и Сингапур, бронировал отели и искал места для перекуса [06:11]. 

Наиболее показательным стал момент заказа 200 пирогов для конференции [09:11]:

1.  **Постановка задачи:** Пользователь попросил ИИ позвонить в магазин и заказать 100 мясных и 100 вегетарианских пирогов, ограничив бюджет суммой в £1000 [09:23].
2.  **Процесс переговоров:** ИИ позвонил реальному (в рамках демо) человеку. Когда продавец озвучил цену в £1200, ИИ не просто сообщил о превышении лимита, а начал торговаться [10:18].
3.  **Результат:** ИИ предложил сбить цену до £800, в итоге стороны сошлись на £1000 при условии упоминания магазина на мероприятии [10:37].

Вес Рот подчеркивает, что способность ИИ к «хагглингу» (торговле) была неожиданной [10:50]. По его мнению, это предвещает начало «гонки вооружений» среди ботов: появятся наступательные боты для выбивания скидок и оборонительные боты для защиты интересов бизнеса от автоматизированных звонков [11:30].

## 🎓 Образование и «Проблема двух сигм»
[[JUMP:12:37]]

Демонстрация образовательных возможностей показала, как advanced voice mode может работать в качестве интерактивного репетитора. ИИ не просто отвечает на вопросы о планетах или вулканах Марса, но и мгновенно генерирует визуальный контент — например, круговые диаграммы состава поверхности Земли прямо в процессе разговора [14:10].

Вес Рот считает, что ИИ может решить фундаментальную педагогическую «Проблему двух сигм» (Two Sigma Problem) [15:31]:

*   **Суть проблемы:** Исследования показывают, что индивидуальное обучение (один на один с тьютором) повышает успеваемость студента на два стандартных отклонения по сравнению с обычным классом [15:45].
*   **Роль ИИ:** До сих пор у человечества не было ресурсов обеспечить каждому ребенку персонального учителя. Масштабируемые LLM могут стать такими наставниками, доступными в любой точке мира и на любом языке [16:25].

## 🌐 Новые инструменты: ChatGPT Search и Desktop-версия
[[JUMP:16:51]]

OpenAI также объявила о запуске ChatGPT Search — прямого конкурента Perplexity. Инструмент позволяет получать ответы с актуальными ссылками на источники (AP News, Reuters, Wikipedia) [17:44]. 

Кроме того, продвинутый голосовой режим (Advanced Voice Mode) теперь доступен в десктопных приложениях для Windows и Mac OS [18:18]. Вес Рот отмечает, что такие инструменты делают взаимодействие с ИИ бесшовным, позволяя использовать его в фоновом режиме во время работы за компьютером.

## 🎙️ Интервью Сэма Альтмана: Будущее агентов и логики
[[JUMP:18:13]]

Сэм Альтман, выступая на конференции, прояснил свое понимание термина «ИИ-агенты». По его мнению, многие ошибочно воспринимают агентов лишь как инструменты для простых действий вроде бронирования столика в ресторане [18:37].

Ключевые тезисы Альтмана:

*   **Масштабируемость действий:** Агент будущего — это не тот, кто звонит в один ресторан, а тот, кто может обзвонить 300 заведений одновременно, чтобы найти лучшее предложение, которое человек физически не успел бы обработать [19:17].
*   **Старший коллега:** Альтман видит идеального агента как «очень умного старшего коллегу», которому можно поручить задачу на 2 недели, и он выполнит её автономно, обращаясь за уточнениями только в критических точках [20:10].
*   **Модель ценообразования:** OpenAI пока не знает, как изменится стоимость услуг. Альтман предполагает переход от оплаты «за место» (per seat) к оплате за вычислительные мощности (GPU), которые тратятся на решение конкретной проблемы клиента [21:16].
*   **Приоритет рассуждений (Reasoning):** Главным фокусом компании остается улучшение способности моделей к логическим рассуждениям, что и реализовано в семействе o1 [23:45]. Именно это, по словам Альтмана, разблокирует следующий масштабный скачок ценности технологии.

Альтман также затронул тему культуры OpenAI, отметив, что их «секретный соус» — это способность раз за разом доказывать осуществимость того, что другие считают невозможным [26:28]. Как только лаборатория показывает результат, другие могут его скопировать, но именно первый шаг требует уникальной корпоративной культуры, которую Альтман планирует когда-нибудь описать в книге [27:26].