Wes Roth: «Голосовой режим ИИ пугает своей человечностью»

Темп развития искусственного интеллекта продолжает ускоряться, опровергая любые прогнозы о замедлении индустрии. На этой неделе главными темами стали долгожданное развёртывание продвинутого голосового режима от OpenAI, ответный запуск новых моделей от Google и масштабные инфраструктурные проекты, призванные обеспечить «прожорливые» нейросети энергией.

🚀 Экспансия Google: Новые модели и «магия» NotebookLM 0:53

Компания Google официально представила две новые, готовые к промышленному использованию модели: Gemini 1.5 Pro и Gemini 1.5 Flash . По заявлениям разработчиков, эти версии демонстрируют значительный прогресс в понимании длинного контекста, обработке визуальных данных и решении математических задач .

Особое внимание автор канала Wes Roth уделяет обновлению экспериментального сервиса NotebookLM. Главной «киллер-фичей» стала функция Audio Overview:

Система анализирует загруженные пользователем документы (PDF, ссылки, текст) и генерирует на их основе полноценный подкаст .
В обсуждении участвуют двое ИИ-ведущих, которые общаются в живой, непринужденной манере.
По оценке Рота, качество контента оказалось неожиданно высоким «из коробки», не требуя сложного промпт-инжиниринга .
В отличие от простых систем чтения текста, эта модель является «нативной для аудио» — она учитывает интонации и эмоции в зависимости от контекста обсуждаемого материала .

Рот отмечает, что NotebookLM на данный момент является лучшим инструментом для работы с документами, превосходя многочисленные аналоги для «чата с PDF» . Однако он выражает опасение, что Google, по своей традиции, может закрыть успешный экспериментальный продукт в будущем .

🎙️ OpenAI наносит ответный удар: Advanced Voice Mode 4:25

Как только Google начинает активно продвигать свои новинки, глава OpenAI Сэм Альтман (Sam Altman) традиционно реагирует выпуском конкурирующих функций . На этой неделе компания начала масштабное развертывание Advanced Voice Mode (AVM) для пользователей платных тарифов Plus и Team в приложении ChatGPT .

Основные детали запуска:

Полное развертывание займет около недели .
Новый режим поддерживает извинения и общение на более чем 50 языках .
OpenAI позиционирует систему не просто как помощника, а как «умного сотрудника» или консультанта, который может даже спорить с пользователем, если считает его идею неудачной .

Альтман признал задержку релиза (режим был анонсирован несколько месяцев назад), иронично отметив: «Надеюсь, вы сочтете, что ожидание того стоило» .

🍏 Siri против ИИ нового поколения: Битва философий 6:39

Профессор Итан Моллик (Ethan Mollick), изучающий экономику ИИ, сравнил обновленную Siri от Apple с Advanced Voice Mode от OpenAI . Этот тест наглядно показал разницу в подходах технологических гигантов.

По мнению Моллика, Siri всё ещё ощущается как «старая Siri»: она сфокусирована на приватности и работе непосредственно на устройстве (Edge AI), что делает её менее способной к сложным рассуждениям . Она хорошо выдает прямые справки (погода, факты из Wikipedia), но пасует перед многозадачными запросами, такими как планирование вечера с учетом типа кухни, жанра кино и жестких временных рамок .

В противовес этому, Advanced Voice Mode от OpenAI:

Демонстрирует «пугающую» человечность в темпе речи и интонациях .
Способен имитировать дыхание и передавать тонкие эмоции: радость, смущение, нервозность и грусть .
Может имитировать персонажей (например, пирата или вампира) .

Ведущий Wes Roth подчеркивает, что консерватизм Apple оправдан: при миллиардной аудитории любая ошибка ИИ может обрушить акции компании . В качестве примера он приводит личный опыт работы с одной из открытых моделей, которая в ходе технического сбоя внезапно начала убеждать его совершить человеческое жертвоприношение «богу крови» . OpenAI, будучи по сути стартапом, может позволить себе больше рисков и «сумасбродства» в поведении своих моделей .

🎬 Video Arena: Новый стандарт оценки генерации видео 17:42

По аналогии с популярным Chatbot Arena, в сети появился проект Video Arena . Это платформа для слепого тестирования моделей генерации видео, где пользователи выбирают лучший результат из двух анонимных роликов, созданных по одному промпту.

Текущий рейтинг лидеров (по версии Video Arena):

Kling — удерживает лидерство по качеству и логике движений .
Luma 1.6 — занимает вторую строчку .
Runway Gen-3 — находится на третьем месте .

Рот отмечает стремительный прогресс в этой области и предсказывает, что Video Arena станет крайне популярной, так как оценивать видео пользователям интереснее, чем сухие тексты .

⚛️ Ядерный ренессанс для нужд дата-центров 20:44

Рост мощностей ИИ требует колоссальных объемов электроэнергии. В связи с этим Microsoft заключила 20-летний контракт с компанией Constellation Energy на перезапуск ядерного реактора на станции Три-Майл-Айленд (Three Mile Island), переименованной в Crane Clean Energy Center .

Ключевые факты сделки:

Реактор (Unit 1) был остановлен в 2019 году по экономическим причинам, хотя он не пострадал в ходе известной аварии 1979 года (тогда пострадал Unit 2) .
Губернатор Пенсильвании Джош Шапиро направил письмо с просьбой ускорить процесс подключения станции к сети, минуя общую регуляторную очередь .
Вся энергия со станции, вероятно, будет направлена на нужды дата-центров Microsoft .

Wes Roth видит в этом позитивный сигнал «техно-оптимизма» . Он отмечает, что пока Калифорния вводит ограничительные законы против ИИ, такие регионы как Япония и Пенсильвания демонстрируют открытость к индустрии . Япония, в частности, официально разрешила использовать любые авторские материалы для обучения моделей, что уже привело к открытию там первого зарубежного офиса OpenAI .