Уэс Рот: «Голосовой режим OpenAI случайно утек в сеть и поразил пользователей реализмом»

Развитие мультимодальных систем искусственного интеллекта переходит в фазу практического применения, где границы между текстом, звуком и видео окончательно размываются. В новом обзоре Уэс Рот (Wes Roth) анализирует последние события: случайную утечку продвинутого голосового режима OpenAI, впечатляющие возможности генерации видео от Runway Gen-3 и результаты первых «слепых тестов» зрения ИИ-моделей.

🎙️ Утечка голосового режима GPT-4o: новый уровень реализма 0:55

Долгожданный «Advanced Voice Mode» для ChatGPT, релиз которого OpenAI официально отложила, на короткое время стал доступен ограниченному числу пользователей из-за технической ошибки . Уэс Рот отмечает, что несколько альфа-тестеров успели продемонстрировать возможности модели в социальных сетях до того, как доступ был закрыт.

Ключевые особенности нового режима, замеченные в утечках:

Звуковые эффекты: Модель способна генерировать фоновые звуки (например, раскаты грома или скрип дверей) прямо во время повествования, что делает рассказ историй максимально иммерсивным .
Эмоциональный диапазон: ИИ демонстрирует естественные интонации, меняет темп речи и делает паузы для создания атмосферы .
Региональные акценты: В отличие от предыдущих версий, которые, по мнению Рота, имели выраженный «калифорнийский» акцент или манеру речи Кремниевой долины, новая модель демонстрирует разнообразие диалектов .

По словам представителя OpenAI, приглашения были разосланы «небольшому количеству пользователей по ошибке», и сейчас проблема устранена . Официальное развертывание для пользователей версии Plus теперь запланировано на июль.

Уэс Рот выделяет две основные причины задержки релиза:

Безопасность: Разработчики пытаются предотвратить нежелательные ответы. Как утверждает автор канала, существуют сообщества, занимающиеся «джейлбрейком» (взломом ограничений) моделей. В случае с голосом это может привести к генерации крайне непристойного или опасного контента с использованием реалистичных звуковых эффектов .
Инфраструктура: Поддержание связи в реальном времени с почти нулевой задержкой (латентностью) требует огромных вычислительных мощностей при масштабировании на миллионы пользователей .

🎬 Runway Gen-3 Alpha: видео на уровне Sora 6:33

Компания Runway представила свою новую модель Gen-3 Alpha, которая, по оценке Рота, способна конкурировать с Sora от OpenAI. Автор проанализировал серию демонстрационных роликов, отметив значительный прогресс в физике и детализации .

Наиболее впечатляющие примеры визуализации:

3D-консистентность: Модель успешно справляется с вращением камеры вокруг сложных объектов, сохраняя их форму и детали без искажений .
Отражения и свет: В сценах с движущимися автомобилями ИИ точно передает блики фар и отражения на кузове .
Атмосферный хоррор: Уэс Рот считает, что ИИ-видео обладает огромным потенциалом для создания пугающего контента. Он приводит в пример сцену в торговом центре, где тени и фигуры исчезают в «скрытом пространстве» (latent space), создавая крайне неуютное ощущение .
Сложные текстуры: Модель детально прорисовывает такие объекты, как зубы монстров, шерсть животных и даже спагетти .

Тем не менее, автор предостерегает, что демонстрационные ролики могут быть тщательно отобраны (cherry-picked) разработчиками. Реальное качество станет понятно только после того, как инструмент попадет в руки широкой аудитории .

👁️ Битва «зрительных» моделей: лидеры Chatbot Arena 11:43

Организация LMsys (Chatbot Arena) запустила новый рейтинг — Vision Leaderboard, который позволяет сравнивать возможности моделей по анализу изображений . В отличие от стандартных бенчмарков, здесь используется «слепое тестирование»: пользователи загружают картинку, задают вопрос двум анонимным моделям и выбирают лучший ответ.

Текущий рейтинг Vision Leaderboard:

GPT-4o — безусловный лидер .
Claude 3.5 Sonnet — второе место .
Gemini 1.5 Pro и GPT-4 Turbo — делят третье место .

Уэс Рот обращает внимание на интересную закономерность: некоторые модели показывают огромный разрыв в качестве работы с текстом и изображениями. Например, Claude 3 Opus значительно теряет позиции при переходе к визуальным задачам, в то время как GPT-4o и Claude 3.5 Sonnet демонстрируют практически одинаково высокий уровень в обеих категориях .

Примечательно, что в топ-10 попала открытая модель LLaVA, занявшая 8-е место, что Рот считает хорошим знаком для сообщества Open Source .

🕵️ Практические тесты: от диагностики авто до классики видеоигр 15:15

Для проверки возможностей моделей Уэс Рот провел серию тестов, загружая сложные изображения и анализируя ответы ИИ.

Кейс 1: Приборная панель автомобиля При анализе фотографии запыленной приборной панели GPT-4o показала впечатляющие результаты:

Распознала горящий индикатор неисправности тормозной системы .
Точно считала пробег в километрах, хотя текст был крайне мелким и размытым .
Правильно определила уровень топлива и температуру двигателя .
Единственная ошибка: модель предположила, что двигатель работает на холостом ходу, хотя обороты были на нуле .

Кейс 2: Тест на знание контекста (Doom) Автор загрузил скриншот стрима, на котором запечатлены создатели культовой игры Doom — Джон Ромеро и Джон Кармак, — и попросил ИИ составить диалог между ними .

GPT-4o и Gemini 1.5 Pro мгновенно узнали разработчиков по лицам, поняли, что речь идет об игре Doom, и даже использовали в диалоге технические детали (например, названия уровней типа E1M4) .
Claude 3.5 Sonnet, несмотря на второе место в общем рейтинге, в этом тесте показала себя слабее: она либо выдавала общие описания «двух мужчин», либо вовсе отказывалась отвечать из-за цензурных фильтров .

Уэс Рот заключает, что развитие зрения является следующим «большим фронтиром» для больших языковых моделей. Это критически важно для создания ИИ-агентов, которые смогут полноценно взаимодействовать с интерфейсом компьютера и выполнять сложные задачи, основываясь на визуальной обратной связи .