Wes Roth о новой гонке ИИ: «OpenAI, Google и xAI готовят масштабный прорыв»

Индустрия искусственного интеллекта вступает в новую фазу: от простых чат-ботов компании переходят к созданию полноценных ИИ-агентов, способных управлять компьютером, пользоваться браузером и интегрироваться в сторонние сервисы. Ведущий канала Wes Roth анализирует последние анонсы от OpenAI, Google и xAI, отмечая, что гонка вооружений в сфере ИИ-видео и автономных рабочих процессов достигла критической точки.

🤖 OpenAI Dev Day: App Store для ChatGPT и эра агентов 0:44

На прошедшем мероприятии OpenAI Dev Day компания представила масштабные обновления, направленные на превращение ChatGPT в центральный хаб для сторонних приложений . По аналогии с App Store, в ChatGPT теперь интегрируются сервисы различных компаний, что открывает новые возможности для автоматизации .

Ключевые анонсы в рамках экосистемы OpenAI:

Интеграция сторонних приложений: В интерфейсе продемонстрированы приложения от Zillow, Spotify, Booking, Canva, Coursera, Expedia и Figma. По мнению Рота, это спровоцирует новую волну поисковой оптимизации (SEO), где разработчики будут бороться за то, чтобы ChatGPT рекомендовал именно их сервис .
Agent Kit и Agent Builder: Представлен набор инструментов для создания агентных рабочих процессов без необходимости писать код или использовать командную строку. Это позволит пользователям автоматизировать сложные задачи, соединяя ИИ с различным программным обеспечением .
Ориентация на Enterprise: Внедрены защитные механизмы (guardrails) против «галлюцинаций» и попыток взлома (jailbreak), что должно сделать технологию более безопасной для крупного бизнеса .
Обновления API:
- Запуск Codex с интеграцией в Slack и SDK .
- Появление GPT-5 Pro в API.
- GPT Real-Time Mini — более дешевая версия голосовой модели.
- GPT Image 1 Mini для работы с изображениями .

Ведущий отмечает, что OpenAI фактически вступает в прямую конкуренцию с сервисами автоматизации вроде Make.com и Zapier, хотя на данный момент система ограничена использованием только моделей OpenAI .

💻 Google Gemini 2.5: ИИ берет управление компьютером на себя 3:18

Одним из самых значимых событий стал выход модели Gemini 2.5 с функцией «Computer Use» (использование компьютера). Это ИИ-агенты, которые могут взаимодействовать с пользовательскими интерфейсами так же, как человек: нажимать кнопки, заполнять формы и перемещаться по сайтам .

Основные характеристики и результаты тестов:

Производительность: Согласно представленным бенчмаркам, Gemini 2.5 превосходит модели Anthropic (Claude 3.5 Sonnet) и аналогичные разработки OpenAI в задачах по навигации в сети .
Скорость и точность: Модель демонстрирует низкую задержку (latency) при высокой точности действий, что критически важно для комфортного взаимодействия с интерфейсом .
Сценарии использования: Google предлагает использовать агентов для онлайн-исследований (Project Mariner) и автоматизированного тестирования ПО (Firebase testing agent) . Рот предполагает, что в будущем ИИ сможет сам тестировать написанный им код или созданные видеоигры, выявляя баги .

Ведущий провел собственные тесты модели. В игре «Сапер» (Minesweeper) агент потерпел неудачу: хотя он смог начать игру и выбрать уровень сложности, он не продемонстрировал логического понимания правил и быстро «подорвался» . Однако в задаче по поиску информации в профиле X (бывший Twitter) Gemini 2.5 проявила себя отлично, быстро найдя аккаунт и точно описав фоновое изображение с «черным котом на акуле» .

💸 Финансовые маневры: OpenAI и AMD 9:43

В контексте сделки между OpenAI и производителем чипов AMD, Уэс Рот цитирует ироничный анализ Мэтта Левина. Речь идет о том, как компании могут договариваться о поставках оборудования в условиях дефицита капитала и высоких ожиданий рынка .

По сценарию Левина, сделка может выглядеть следующим образом:

OpenAI запрашивает чипы на сумму $78 млрд для выполнения операций вывода (inference) .
Вместо прямой оплаты наличными компании объявляют о стратегическом партнерстве.
Один лишь анонс сделки поднимает капитализацию AMD на те же $78 млрд .
В итоге AMD получает рост стоимости акций, а OpenAI — необходимые вычислительные мощности, фактически «оплаченные» рыночным оптимизмом .

Хотя этот сценарий является упрощением, по мнению автора видео, он отражает стиль ведения переговоров Сэма Альтмана, которого Рот называет «мастером сделок» .

🎥 xAI и Grok: Погоня за лидерами 11:27

Компания Илона Маска xAI также не стоит на месте. Код Grok стал доступен в Visual Studio, а новая модель генерации видео Imagine V0.9 показала значительный прогресс по сравнению с предыдущими версиями .

Критика и наблюдения Рота касательно видеомодели xAI:

Качество: Видео с Tesla Cybertruck в лесу выглядит неплохо, но, по мнению ведущего, уступает продуктам OpenAI и Google .
Стилистика: Рот считает, что изображение выглядит несколько «мультяшным» и не достигает полной фотореалистичности. Он предполагает, что модель могла обучаться на данных из видеоигр или анимации, а не на реальных видеосъемках, чтобы избежать проблем с авторскими правами .
Перспективы: Несмотря на текущее отставание, автор предупреждает, что не стоит недооценивать xAI, учитывая огромные вычислительные ресурсы в распоряжении Илона Маска и высокую скорость итераций команды .

🏆 Научный триумф Alphabet 13:53

В завершение обзора упоминается успех подразделения Google DeepMind и всей группы Alphabet на научном поприще. В копилке компании стало на несколько Нобелевских лауреатов больше. К Джеффри Хинтону, Демису Хассабису и Джону Джамперу присоединились ученые из команды Google Quantum AI . Мишель Деворе получил Нобелевскую премию по физике 2025 года, что Хассабис назвал огромным достижением для всей индустрии . Это уже третья Нобелевская премия, связанная с работой в Alphabet за последние два года .