# Уэс Рот: «Голосовой режим OpenAI случайно утек в сеть и поразил пользователей реализмом»

Источник: https://www.youtube.com/watch?v=4SmighUk9q8
Канал: Wes Roth
Опубликовано: 29.06.2024

---

Развитие мультимодальных систем искусственного интеллекта переходит в фазу практического применения, где границы между текстом, звуком и видео окончательно размываются. В новом обзоре Уэс Рот (Wes Roth) анализирует последние события: случайную утечку продвинутого голосового режима OpenAI, впечатляющие возможности генерации видео от Runway Gen-3 и результаты первых «слепых тестов» зрения ИИ-моделей.

## 🎙️ Утечка голосового режима GPT-4o: новый уровень реализма
[[JUMP:00:55]]

Долгожданный «Advanced Voice Mode» для ChatGPT, релиз которого OpenAI официально отложила, на короткое время стал доступен ограниченному числу пользователей из-за технической ошибки [01:18]. Уэс Рот отмечает, что несколько альфа-тестеров успели продемонстрировать возможности модели в социальных сетях до того, как доступ был закрыт.

Ключевые особенности нового режима, замеченные в утечках:

*   **Звуковые эффекты:** Модель способна генерировать фоновые звуки (например, раскаты грома или скрип дверей) прямо во время повествования, что делает рассказ историй максимально иммерсивным [03:20].
*   **Эмоциональный диапазон:** ИИ демонстрирует естественные интонации, меняет темп речи и делает паузы для создания атмосферы [03:08].
*   **Региональные акценты:** В отличие от предыдущих версий, которые, по мнению Рота, имели выраженный «калифорнийский» акцент или манеру речи Кремниевой долины, новая модель демонстрирует разнообразие диалектов [04:10].

По словам представителя OpenAI, приглашения были разосланы «небольшому количеству пользователей по ошибке», и сейчас проблема устранена [06:20]. Официальное развертывание для пользователей версии Plus теперь запланировано на июль.

Уэс Рот выделяет две основные причины задержки релиза:

1.  **Безопасность:** Разработчики пытаются предотвратить нежелательные ответы. Как утверждает автор канала, существуют сообщества, занимающиеся «джейлбрейком» (взломом ограничений) моделей. В случае с голосом это может привести к генерации крайне непристойного или опасного контента с использованием реалистичных звуковых эффектов [05:15].
2.  **Инфраструктура:** Поддержание связи в реальном времени с почти нулевой задержкой (латентностью) требует огромных вычислительных мощностей при масштабировании на миллионы пользователей [05:41].

## 🎬 Runway Gen-3 Alpha: видео на уровне Sora
[[JUMP:06:33]]

Компания Runway представила свою новую модель Gen-3 Alpha, которая, по оценке Рота, способна конкурировать с Sora от OpenAI. Автор проанализировал серию демонстрационных роликов, отметив значительный прогресс в физике и детализации [06:47].

Наиболее впечатляющие примеры визуализации:

*   **3D-консистентность:** Модель успешно справляется с вращением камеры вокруг сложных объектов, сохраняя их форму и детали без искажений [00:25].
*   **Отражения и свет:** В сценах с движущимися автомобилями ИИ точно передает блики фар и отражения на кузове [07:12].
*   **Атмосферный хоррор:** Уэс Рот считает, что ИИ-видео обладает огромным потенциалом для создания пугающего контента. Он приводит в пример сцену в торговом центре, где тени и фигуры исчезают в «скрытом пространстве» (latent space), создавая крайне неуютное ощущение [07:54].
*   **Сложные текстуры:** Модель детально прорисовывает такие объекты, как зубы монстров, шерсть животных и даже спагетти [11:18].

Тем не менее, автор предостерегает, что демонстрационные ролики могут быть тщательно отобраны (cherry-picked) разработчиками. Реальное качество станет понятно только после того, как инструмент попадет в руки широкой аудитории [10:24].

## 👁️ Битва «зрительных» моделей: лидеры Chatbot Arena
[[JUMP:11:43]]

Организация LMsys (Chatbot Arena) запустила новый рейтинг — Vision Leaderboard, который позволяет сравнивать возможности моделей по анализу изображений [11:45]. В отличие от стандартных бенчмарков, здесь используется «слепое тестирование»: пользователи загружают картинку, задают вопрос двум анонимным моделям и выбирают лучший ответ.

Текущий рейтинг Vision Leaderboard:

1.  **GPT-4o** — безусловный лидер [13:05].
2.  **Claude 3.5 Sonnet** — второе место [13:05].
3.  **Gemini 1.5 Pro** и **GPT-4 Turbo** — делят третье место [13:05].

Уэс Рот обращает внимание на интересную закономерность: некоторые модели показывают огромный разрыв в качестве работы с текстом и изображениями. Например, Claude 3 Opus значительно теряет позиции при переходе к визуальным задачам, в то время как GPT-4o и Claude 3.5 Sonnet демонстрируют практически одинаково высокий уровень в обеих категориях [13:56]. 

Примечательно, что в топ-10 попала открытая модель **LLaVA**, занявшая 8-е место, что Рот считает хорошим знаком для сообщества Open Source [13:17].

## 🕵️ Практические тесты: от диагностики авто до классики видеоигр
[[JUMP:15:15]]

Для проверки возможностей моделей Уэс Рот провел серию тестов, загружая сложные изображения и анализируя ответы ИИ.

**Кейс 1: Приборная панель автомобиля**
При анализе фотографии запыленной приборной панели GPT-4o показала впечатляющие результаты:

*   Распознала горящий индикатор неисправности тормозной системы [16:07].
*   Точно считала пробег в километрах, хотя текст был крайне мелким и размытым [16:35].
*   Правильно определила уровень топлива и температуру двигателя [16:48].
*   Единственная ошибка: модель предположила, что двигатель работает на холостом ходу, хотя обороты были на нуле [17:02].

**Кейс 2: Тест на знание контекста (Doom)**
Автор загрузил скриншот стрима, на котором запечатлены создатели культовой игры Doom — Джон Ромеро и Джон Кармак, — и попросил ИИ составить диалог между ними [17:54].

*   **GPT-4o** и **Gemini 1.5 Pro** мгновенно узнали разработчиков по лицам, поняли, что речь идет об игре Doom, и даже использовали в диалоге технические детали (например, названия уровней типа E1M4) [20:07].
*   **Claude 3.5 Sonnet**, несмотря на второе место в общем рейтинге, в этом тесте показала себя слабее: она либо выдавала общие описания «двух мужчин», либо вовсе отказывалась отвечать из-за цензурных фильтров [23:50].

Уэс Рот заключает, что развитие зрения является следующим «большим фронтиром» для больших языковых моделей. Это критически важно для создания ИИ-агентов, которые смогут полноценно взаимодействовать с интерфейсом компьютера и выполнять сложные задачи, основываясь на визуальной обратной связи [24:41].