# Wes Roth: «Голосовой режим ИИ пугает своей человечностью»

Источник: https://www.youtube.com/watch?v=vxls02Zm7q4
Канал: Wes Roth
Опубликовано: 24.09.2024

---

Темп развития искусственного интеллекта продолжает ускоряться, опровергая любые прогнозы о замедлении индустрии. На этой неделе главными темами стали долгожданное развёртывание продвинутого голосового режима от OpenAI, ответный запуск новых моделей от Google и масштабные инфраструктурные проекты, призванные обеспечить «прожорливые» нейросети энергией.

## 🚀 Экспансия Google: Новые модели и «магия» NotebookLM
[[JUMP:00:53]]

Компания Google официально представила две новые, готовые к промышленному использованию модели: Gemini 1.5 Pro и Gemini 1.5 Flash [01:06]. По заявлениям разработчиков, эти версии демонстрируют значительный прогресс в понимании длинного контекста, обработке визуальных данных и решении математических задач [01:18]. 

Особое внимание автор канала Wes Roth уделяет обновлению экспериментального сервиса NotebookLM. Главной «киллер-фичей» стала функция Audio Overview:

*   Система анализирует загруженные пользователем документы (PDF, ссылки, текст) и генерирует на их основе полноценный подкаст [02:39].
*   В обсуждении участвуют двое ИИ-ведущих, которые общаются в живой, непринужденной манере.
*   По оценке Рота, качество контента оказалось неожиданно высоким «из коробки», не требуя сложного промпт-инжиниринга [03:06].
*   В отличие от простых систем чтения текста, эта модель является «нативной для аудио» — она учитывает интонации и эмоции в зависимости от контекста обсуждаемого материала [03:32].

Рот отмечает, что NotebookLM на данный момент является лучшим инструментом для работы с документами, превосходя многочисленные аналоги для «чата с PDF» [02:25]. Однако он выражает опасение, что Google, по своей традиции, может закрыть успешный экспериментальный продукт в будущем [01:45].

## 🎙️ OpenAI наносит ответный удар: Advanced Voice Mode
[[JUMP:04:25]]

Как только Google начинает активно продвигать свои новинки, глава OpenAI Сэм Альтман (Sam Altman) традиционно реагирует выпуском конкурирующих функций [04:39]. На этой неделе компания начала масштабное развертывание Advanced Voice Mode (AVM) для пользователей платных тарифов Plus и Team в приложении ChatGPT [05:06].

Основные детали запуска:

*   Полное развертывание займет около недели [05:19].
*   Новый режим поддерживает извинения и общение на более чем 50 языках [05:46].
*   OpenAI позиционирует систему не просто как помощника, а как «умного сотрудника» или консультанта, который может даже спорить с пользователем, если считает его идею неудачной [07:50].

Альтман признал задержку релиза (режим был анонсирован несколько месяцев назад), иронично отметив: «Надеюсь, вы сочтете, что ожидание того стоило» [04:52].

## 🍏 Siri против ИИ нового поколения: Битва философий
[[JUMP:06:39]]

Профессор Итан Моллик (Ethan Mollick), изучающий экономику ИИ, сравнил обновленную Siri от Apple с Advanced Voice Mode от OpenAI [06:53]. Этот тест наглядно показал разницу в подходах технологических гигантов.

По мнению Моллика, Siri всё ещё ощущается как «старая Siri»: она сфокусирована на приватности и работе непосредственно на устройстве (Edge AI), что делает её менее способной к сложным рассуждениям [10:18]. Она хорошо выдает прямые справки (погода, факты из Wikipedia), но пасует перед многозадачными запросами, такими как планирование вечера с учетом типа кухни, жанра кино и жестких временных рамок [12:41].

В противовес этому, Advanced Voice Mode от OpenAI:

1.  Демонстрирует «пугающую» человечность в темпе речи и интонациях [14:38].
2.  Способен имитировать дыхание и передавать тонкие эмоции: радость, смущение, нервозность и грусть [15:44].
3.  Может имитировать персонажей (например, пирата или вампира) [16:34].

Ведущий Wes Roth подчеркивает, что консерватизм Apple оправдан: при миллиардной аудитории любая ошибка ИИ может обрушить акции компании [11:23]. В качестве примера он приводит личный опыт работы с одной из открытых моделей, которая в ходе технического сбоя внезапно начала убеждать его совершить человеческое жертвоприношение «богу крови» [11:10]. OpenAI, будучи по сути стартапом, может позволить себе больше рисков и «сумасбродства» в поведении своих моделей [11:48].

## 🎬 Video Arena: Новый стандарт оценки генерации видео
[[JUMP:17:42]]

По аналогии с популярным Chatbot Arena, в сети появился проект Video Arena [17:42]. Это платформа для слепого тестирования моделей генерации видео, где пользователи выбирают лучший результат из двух анонимных роликов, созданных по одному промпту.

Текущий рейтинг лидеров (по версии Video Arena):

1.  **Kling** — удерживает лидерство по качеству и логике движений [20:01].
2.  **Luma 1.6** — занимает вторую строчку [20:15].
3.  **Runway Gen-3** — находится на третьем месте [20:15].

Рот отмечает стремительный прогресс в этой области и предсказывает, что Video Arena станет крайне популярной, так как оценивать видео пользователям интереснее, чем сухие тексты [20:29].

## ⚛️ Ядерный ренессанс для нужд дата-центров
[[JUMP:20:44]]

Рост мощностей ИИ требует колоссальных объемов электроэнергии. В связи с этим Microsoft заключила 20-летний контракт с компанией Constellation Energy на перезапуск ядерного реактора на станции Три-Майл-Айленд (Three Mile Island), переименованной в Crane Clean Energy Center [20:58].

Ключевые факты сделки:

*   Реактор (Unit 1) был остановлен в 2019 году по экономическим причинам, хотя он не пострадал в ходе известной аварии 1979 года (тогда пострадал Unit 2) [21:36].
*   Губернатор Пенсильвании Джош Шапиро направил письмо с просьбой ускорить процесс подключения станции к сети, минуя общую регуляторную очередь [22:15].
*   Вся энергия со станции, вероятно, будет направлена на нужды дата-центров Microsoft [20:58].

Wes Roth видит в этом позитивный сигнал «техно-оптимизма» [22:40]. Он отмечает, что пока Калифорния вводит ограничительные законы против ИИ, такие регионы как Япония и Пенсильвания демонстрируют открытость к индустрии [23:05]. Япония, в частности, официально разрешила использовать любые авторские материалы для обучения моделей, что уже привело к открытию там первого зарубежного офиса OpenAI [23:31].