ИИ-агенты возвращаются: итоги Google I/O и OpenAI Spring Event

The Verge 27,7 тыс. 1 ч 31 мин 5 мин 17.05.2024
Главное

OpenAI и Google вступили в новую фазу войны ИИ-ассистентов, превращая чат-ботов в мультимодальных «агентов», способных видеть, слышать и даже флиртовать с пользователем. В новом выпуске The Vergecast Нилай Патель, Алекс Кранц и Дэвид Пирс анализируют итоги конференций Google I/O и весеннего мероприятия OpenAI, обсуждая, действительно ли технологии стали умнее или они просто научились убедительнее имитировать человеческое поведение.

🤖 Битва за «Омни»: OpenAI пытается перехватить инициативу 3:22

В индустрии технологий началась агрессивная гонка за создание «компьютера из Star Trek» — идеального голосового помощника, который понимает мир в реальном времени. По мнению Дэвида Пирса, долгое время это было лишь мечтой, но сейчас лидеры рынка почувствовали, что финишная прямая уже близка. OpenAI, несмотря на статус стартапа, ведет себя как опытный и крайне агрессивный игрок. Компания анонсировала свой «весенний ивент» буквально за 20 минут до начала, явно пытаясь затмить Google I/O.

Главным анонсом стала модель GPT-4o (где «o» означает «omni»). Ключевые особенности новой модели:

Однако участники подкаста отнеслись к демонстрациям скептически. Алекс Кранц считает, что OpenAI эксплуатирует веру миллиардеров Кремниевой долины в то, что люди «хотят переспать с iPad». По ее мнению, демо-версии, где ИИ делает комплименты толстовке пользователя, выглядят как представление гиков о том, как должен выглядеть флирт.

🏰 Google наносит ответный удар: Инфраструктура и Project Astra 26:21

Если OpenAI берет харизмой продукта, то Google делает ставку на масштаб и интеграцию. Сундар Пичаи заявил, что стоимость обработки запросов снизилась на 85% за последний год. Это позволяет Google внедрять ИИ во все свои продукты, которыми пользуются миллиарды людей.

Центральным элементом презентации стал Project Astra — ответ Google на GPT-4o. Это мультимодальный ассистент, который может «видеть» через камеру смартфона и отвечать на вопросы о вещах в кадре. Однако Нилай Патель, лично тестировавший Astra, столкнулся с проблемами: в одной из попыток заставить ИИ придумать историю о пластиковом динозавре и маракасе, система просто зависла, не сумев предсказать следующее слово.

Другие важные анонсы Google:

Дэвид Пирс отмечает, что Google планомерно объединяет команды Android и Pixel под руководством Рика Остерло, чтобы сделать ИИ ядром операционной системы и попытаться опередить Apple в вопросе пользовательского интерфейса.

🧪 Галлюцинации и «интеллект» против «убедительности» 39:44

Одной из самых горячих тем обсуждения стала ошибка в официальном демо-ролике Google. В видео пользователь наводит камеру на пленочный фотоаппарат, у которого заклинило рычаг перемотки, и ИИ советует «просто открыть заднюю крышку». С точки зрения любого фотографа, это катастрофический совет: открытие крышки на свету мгновенно уничтожит все отснятые кадры.

Нилай Патель обсудил этот случай с Сундаром Пичаи, спросив, является ли владение языком тем же самым, что и интеллект. Пичаи ответил, что в определенных контекстах, если вы готовы пожертвовать пленкой ради спасения камеры, это может быть приемлемым решением.

Основные выводы собеседников о качестве современного ИИ:

  1. Убедительность растет быстрее качества: По мнению Дэвида Пирса, ИИ становится более человечным в общении, но не делает меньше фактических ошибок.
  2. Проблема ответственности: Если друг посоветует вам открыть камеру и испортит фото, вы будете на него злиться. С ИИ у пользователя нет механизмов привлечения к ответственности.
  3. Искажение поиска: Алекс Кранц считает, что Google теряет свою суть: вместо того чтобы быть проводником к информации, компания пытается стать ее единоличным арбитром, навязывая свои ответы через ИИ.

🌐 «Google Zero» и конец эпохи открытого интернета 1:01:55

Google официально запускает AI Overviews (ранее SGE) для всех пользователей в США. Теперь вместо списка ссылок пользователь видит сгенерированный ИИ ответ в верхней части страницы. Нилай Патель называет это моментом «Google Zero» — ситуацией, когда трафик издателей и сайтов может упасть до нуля, так как пользователю больше не нужно переходить по ссылкам.

Руководство Google, включая Лиз Рид, утверждает, что ссылки внутри ИИ-ответов получают больше кликов, чем обычные результаты поиска. Однако, как отмечает Нилай, проверить это утверждение невозможно, так как Google не предоставляет необходимых данных в своих инструментах аналитики. Участники дискуссии сошлись во мнении, что медиаиндустрию ждут «безумные 18 месяцев», а издательские группы, вероятно, ответят на эти изменения массовыми судебными исками.


⚡ Молниеносный раунд: iPad, эмуляторы и Qualcomm 1:14:09

В завершение выпуска ведущие обсудили другие важные новости недели:

💬 Цитаты

«Я не знаю, почему индустрия выбрала слово «агенты». Видимо, они не смотрели «Матрицу», где агенты неустанно пытаются убить Киану Ривза.»

Нилай Патель 00:15

«ИИ становится убедительным быстрее, чем он становится качественным. И это пугает.»

Дэвид Пирс 19:17

«Пусть Google делает «гугление» за вас — таков теперь их слоган.»

👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Мультимодальность
Способность модели ИИ одновременно обрабатывать разные типы данных: текст, изображения, аудио и видео.
Галлюцинация
Феномен, при котором ИИ уверенно выдает фактически неверную или несуществующую информацию.
Latency (Задержка)
Время между запросом пользователя и началом ответа системы; критический параметр для голосовых ассистентов.
Google Zero
Концепция Нилая Пателя о будущем, где пользователи получают все ответы прямо в поиске Google и перестают переходить на другие сайты.
📊 Цифры
🗓 Хронология
  1. Май 2024 OpenAI анонсирует GPT-4o за день до конференции Google.
  2. Май 2024 Google I/O: анонс Project Astra и запуск AI Overviews в США.
  3. Июнь 2024 Ожидаемая конференция Apple WWDC, где должны представить ИИ-стратегию компании.
⚖️ Другая сторона
Технологии и IT OpenAI Google I/O GPT-4o Gemini Project Astra