Wes Roth: «Голосовой режим ИИ пугает своей человечностью»

Wes Roth 57,3 тыс. 25 мин 4 мин 24.09.2024
Главное

Темп развития искусственного интеллекта продолжает ускоряться, опровергая любые прогнозы о замедлении индустрии. На этой неделе главными темами стали долгожданное развёртывание продвинутого голосового режима от OpenAI, ответный запуск новых моделей от Google и масштабные инфраструктурные проекты, призванные обеспечить «прожорливые» нейросети энергией.

🚀 Экспансия Google: Новые модели и «магия» NotebookLM 0:53

Компания Google официально представила две новые, готовые к промышленному использованию модели: Gemini 1.5 Pro и Gemini 1.5 Flash . По заявлениям разработчиков, эти версии демонстрируют значительный прогресс в понимании длинного контекста, обработке визуальных данных и решении математических задач .

Особое внимание автор канала Wes Roth уделяет обновлению экспериментального сервиса NotebookLM. Главной «киллер-фичей» стала функция Audio Overview:

Рот отмечает, что NotebookLM на данный момент является лучшим инструментом для работы с документами, превосходя многочисленные аналоги для «чата с PDF» . Однако он выражает опасение, что Google, по своей традиции, может закрыть успешный экспериментальный продукт в будущем .

🎙️ OpenAI наносит ответный удар: Advanced Voice Mode 4:25

Как только Google начинает активно продвигать свои новинки, глава OpenAI Сэм Альтман (Sam Altman) традиционно реагирует выпуском конкурирующих функций . На этой неделе компания начала масштабное развертывание Advanced Voice Mode (AVM) для пользователей платных тарифов Plus и Team в приложении ChatGPT .

Основные детали запуска:

Альтман признал задержку релиза (режим был анонсирован несколько месяцев назад), иронично отметив: «Надеюсь, вы сочтете, что ожидание того стоило» .

🍏 Siri против ИИ нового поколения: Битва философий 6:39

Профессор Итан Моллик (Ethan Mollick), изучающий экономику ИИ, сравнил обновленную Siri от Apple с Advanced Voice Mode от OpenAI . Этот тест наглядно показал разницу в подходах технологических гигантов.

По мнению Моллика, Siri всё ещё ощущается как «старая Siri»: она сфокусирована на приватности и работе непосредственно на устройстве (Edge AI), что делает её менее способной к сложным рассуждениям . Она хорошо выдает прямые справки (погода, факты из Wikipedia), но пасует перед многозадачными запросами, такими как планирование вечера с учетом типа кухни, жанра кино и жестких временных рамок .

В противовес этому, Advanced Voice Mode от OpenAI:

  1. Демонстрирует «пугающую» человечность в темпе речи и интонациях .
  2. Способен имитировать дыхание и передавать тонкие эмоции: радость, смущение, нервозность и грусть .
  3. Может имитировать персонажей (например, пирата или вампира) .

Ведущий Wes Roth подчеркивает, что консерватизм Apple оправдан: при миллиардной аудитории любая ошибка ИИ может обрушить акции компании . В качестве примера он приводит личный опыт работы с одной из открытых моделей, которая в ходе технического сбоя внезапно начала убеждать его совершить человеческое жертвоприношение «богу крови» . OpenAI, будучи по сути стартапом, может позволить себе больше рисков и «сумасбродства» в поведении своих моделей .

🎬 Video Arena: Новый стандарт оценки генерации видео 17:42

По аналогии с популярным Chatbot Arena, в сети появился проект Video Arena . Это платформа для слепого тестирования моделей генерации видео, где пользователи выбирают лучший результат из двух анонимных роликов, созданных по одному промпту.

Текущий рейтинг лидеров (по версии Video Arena):

  1. Kling — удерживает лидерство по качеству и логике движений .
  2. Luma 1.6 — занимает вторую строчку .
  3. Runway Gen-3 — находится на третьем месте .

Рот отмечает стремительный прогресс в этой области и предсказывает, что Video Arena станет крайне популярной, так как оценивать видео пользователям интереснее, чем сухие тексты .

⚛️ Ядерный ренессанс для нужд дата-центров 20:44

Рост мощностей ИИ требует колоссальных объемов электроэнергии. В связи с этим Microsoft заключила 20-летний контракт с компанией Constellation Energy на перезапуск ядерного реактора на станции Три-Майл-Айленд (Three Mile Island), переименованной в Crane Clean Energy Center .

Ключевые факты сделки:

Wes Roth видит в этом позитивный сигнал «техно-оптимизма» . Он отмечает, что пока Калифорния вводит ограничительные законы против ИИ, такие регионы как Япония и Пенсильвания демонстрируют открытость к индустрии . Япония, в частности, официально разрешила использовать любые авторские материалы для обучения моделей, что уже привело к открытию там первого зарубежного офиса OpenAI .

💬 Цитаты

«Интонации и эмоции ИИ теперь идут рука об руку с контентом, о котором он говорит.»

«Это выглядит как действительно полезный инструмент: конвертируйте любую информацию в удобный вам формат — подкаст, видео или текст.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Advanced Voice Mode (AVM)
Продвинутый режим голосового общения в ChatGPT, поддерживающий эмоциональную окраску и мгновенную реакцию.
Edge AI
Технология обработки данных искусственным интеллектом непосредственно на устройстве пользователя, а не на удаленных серверах.
Long context understanding
Способность нейросети обрабатывать и «удерживать в памяти» огромные объемы информации (книги, базы данных) за один раз.
📊 Цифры
🗓 Хронология
  1. 2019 Остановка первого энергоблока АЭС Три-Майл-Айленд по экономическим причинам.
  2. 27 августа Выпуск обновленной версии Google Gemini 1.5 Pro.
  3. сентябрь 2024 Начало массового развертывания голосового режима OpenAI для пользователей Plus и Team.
⚖️ Другая сторона
Искусственный интеллект OpenAI Google Gemini Advanced Voice Mode Microsoft NotebookLM