Индустрия искусственного интеллекта вступает в новую фазу: от простых чат-ботов компании переходят к созданию полноценных ИИ-агентов, способных управлять компьютером, пользоваться браузером и интегрироваться в сторонние сервисы. Ведущий канала Wes Roth анализирует последние анонсы от OpenAI, Google и xAI, отмечая, что гонка вооружений в сфере ИИ-видео и автономных рабочих процессов достигла критической точки.
🤖 OpenAI Dev Day: App Store для ChatGPT и эра агентов 0:44
На прошедшем мероприятии OpenAI Dev Day компания представила масштабные обновления, направленные на превращение ChatGPT в центральный хаб для сторонних приложений . По аналогии с App Store, в ChatGPT теперь интегрируются сервисы различных компаний, что открывает новые возможности для автоматизации .
Ключевые анонсы в рамках экосистемы OpenAI:
- Интеграция сторонних приложений: В интерфейсе продемонстрированы приложения от Zillow, Spotify, Booking, Canva, Coursera, Expedia и Figma. По мнению Рота, это спровоцирует новую волну поисковой оптимизации (SEO), где разработчики будут бороться за то, чтобы ChatGPT рекомендовал именно их сервис .
- Agent Kit и Agent Builder: Представлен набор инструментов для создания агентных рабочих процессов без необходимости писать код или использовать командную строку. Это позволит пользователям автоматизировать сложные задачи, соединяя ИИ с различным программным обеспечением .
- Ориентация на Enterprise: Внедрены защитные механизмы (guardrails) против «галлюцинаций» и попыток взлома (jailbreak), что должно сделать технологию более безопасной для крупного бизнеса .
- Обновления API:
Ведущий отмечает, что OpenAI фактически вступает в прямую конкуренцию с сервисами автоматизации вроде Make.com и Zapier, хотя на данный момент система ограничена использованием только моделей OpenAI .
💻 Google Gemini 2.5: ИИ берет управление компьютером на себя 3:18
Одним из самых значимых событий стал выход модели Gemini 2.5 с функцией «Computer Use» (использование компьютера). Это ИИ-агенты, которые могут взаимодействовать с пользовательскими интерфейсами так же, как человек: нажимать кнопки, заполнять формы и перемещаться по сайтам .
Основные характеристики и результаты тестов:
- Производительность: Согласно представленным бенчмаркам, Gemini 2.5 превосходит модели Anthropic (Claude 3.5 Sonnet) и аналогичные разработки OpenAI в задачах по навигации в сети .
- Скорость и точность: Модель демонстрирует низкую задержку (latency) при высокой точности действий, что критически важно для комфортного взаимодействия с интерфейсом .
- Сценарии использования: Google предлагает использовать агентов для онлайн-исследований (Project Mariner) и автоматизированного тестирования ПО (Firebase testing agent) . Рот предполагает, что в будущем ИИ сможет сам тестировать написанный им код или созданные видеоигры, выявляя баги .
Ведущий провел собственные тесты модели. В игре «Сапер» (Minesweeper) агент потерпел неудачу: хотя он смог начать игру и выбрать уровень сложности, он не продемонстрировал логического понимания правил и быстро «подорвался» . Однако в задаче по поиску информации в профиле X (бывший Twitter) Gemini 2.5 проявила себя отлично, быстро найдя аккаунт и точно описав фоновое изображение с «черным котом на акуле» .
💸 Финансовые маневры: OpenAI и AMD 9:43
В контексте сделки между OpenAI и производителем чипов AMD, Уэс Рот цитирует ироничный анализ Мэтта Левина. Речь идет о том, как компании могут договариваться о поставках оборудования в условиях дефицита капитала и высоких ожиданий рынка .
По сценарию Левина, сделка может выглядеть следующим образом:
- OpenAI запрашивает чипы на сумму $78 млрд для выполнения операций вывода (inference) .
- Вместо прямой оплаты наличными компании объявляют о стратегическом партнерстве.
- Один лишь анонс сделки поднимает капитализацию AMD на те же $78 млрд .
- В итоге AMD получает рост стоимости акций, а OpenAI — необходимые вычислительные мощности, фактически «оплаченные» рыночным оптимизмом .
Хотя этот сценарий является упрощением, по мнению автора видео, он отражает стиль ведения переговоров Сэма Альтмана, которого Рот называет «мастером сделок» .
🎥 xAI и Grok: Погоня за лидерами 11:27
Компания Илона Маска xAI также не стоит на месте. Код Grok стал доступен в Visual Studio, а новая модель генерации видео Imagine V0.9 показала значительный прогресс по сравнению с предыдущими версиями .
Критика и наблюдения Рота касательно видеомодели xAI:
- Качество: Видео с Tesla Cybertruck в лесу выглядит неплохо, но, по мнению ведущего, уступает продуктам OpenAI и Google .
- Стилистика: Рот считает, что изображение выглядит несколько «мультяшным» и не достигает полной фотореалистичности. Он предполагает, что модель могла обучаться на данных из видеоигр или анимации, а не на реальных видеосъемках, чтобы избежать проблем с авторскими правами .
- Перспективы: Несмотря на текущее отставание, автор предупреждает, что не стоит недооценивать xAI, учитывая огромные вычислительные ресурсы в распоряжении Илона Маска и высокую скорость итераций команды .
🏆 Научный триумф Alphabet 13:53
В завершение обзора упоминается успех подразделения Google DeepMind и всей группы Alphabet на научном поприще. В копилке компании стало на несколько Нобелевских лауреатов больше. К Джеффри Хинтону, Демису Хассабису и Джону Джамперу присоединились ученые из команды Google Quantum AI . Мишель Деворе получил Нобелевскую премию по физике 2025 года, что Хассабис назвал огромным достижением для всей индустрии . Это уже третья Нобелевская премия, связанная с работой в Alphabet за последние два года .