Развитие мультимодальных систем искусственного интеллекта переходит в фазу практического применения, где границы между текстом, звуком и видео окончательно размываются. В новом обзоре Уэс Рот (Wes Roth) анализирует последние события: случайную утечку продвинутого голосового режима OpenAI, впечатляющие возможности генерации видео от Runway Gen-3 и результаты первых «слепых тестов» зрения ИИ-моделей.
🎙️ Утечка голосового режима GPT-4o: новый уровень реализма 0:55
Долгожданный «Advanced Voice Mode» для ChatGPT, релиз которого OpenAI официально отложила, на короткое время стал доступен ограниченному числу пользователей из-за технической ошибки . Уэс Рот отмечает, что несколько альфа-тестеров успели продемонстрировать возможности модели в социальных сетях до того, как доступ был закрыт.
Ключевые особенности нового режима, замеченные в утечках:
- Звуковые эффекты: Модель способна генерировать фоновые звуки (например, раскаты грома или скрип дверей) прямо во время повествования, что делает рассказ историй максимально иммерсивным .
- Эмоциональный диапазон: ИИ демонстрирует естественные интонации, меняет темп речи и делает паузы для создания атмосферы .
- Региональные акценты: В отличие от предыдущих версий, которые, по мнению Рота, имели выраженный «калифорнийский» акцент или манеру речи Кремниевой долины, новая модель демонстрирует разнообразие диалектов .
По словам представителя OpenAI, приглашения были разосланы «небольшому количеству пользователей по ошибке», и сейчас проблема устранена . Официальное развертывание для пользователей версии Plus теперь запланировано на июль.
Уэс Рот выделяет две основные причины задержки релиза:
- Безопасность: Разработчики пытаются предотвратить нежелательные ответы. Как утверждает автор канала, существуют сообщества, занимающиеся «джейлбрейком» (взломом ограничений) моделей. В случае с голосом это может привести к генерации крайне непристойного или опасного контента с использованием реалистичных звуковых эффектов .
- Инфраструктура: Поддержание связи в реальном времени с почти нулевой задержкой (латентностью) требует огромных вычислительных мощностей при масштабировании на миллионы пользователей .
🎬 Runway Gen-3 Alpha: видео на уровне Sora 6:33
Компания Runway представила свою новую модель Gen-3 Alpha, которая, по оценке Рота, способна конкурировать с Sora от OpenAI. Автор проанализировал серию демонстрационных роликов, отметив значительный прогресс в физике и детализации .
Наиболее впечатляющие примеры визуализации:
- 3D-консистентность: Модель успешно справляется с вращением камеры вокруг сложных объектов, сохраняя их форму и детали без искажений .
- Отражения и свет: В сценах с движущимися автомобилями ИИ точно передает блики фар и отражения на кузове .
- Атмосферный хоррор: Уэс Рот считает, что ИИ-видео обладает огромным потенциалом для создания пугающего контента. Он приводит в пример сцену в торговом центре, где тени и фигуры исчезают в «скрытом пространстве» (latent space), создавая крайне неуютное ощущение .
- Сложные текстуры: Модель детально прорисовывает такие объекты, как зубы монстров, шерсть животных и даже спагетти .
Тем не менее, автор предостерегает, что демонстрационные ролики могут быть тщательно отобраны (cherry-picked) разработчиками. Реальное качество станет понятно только после того, как инструмент попадет в руки широкой аудитории .
👁️ Битва «зрительных» моделей: лидеры Chatbot Arena 11:43
Организация LMsys (Chatbot Arena) запустила новый рейтинг — Vision Leaderboard, который позволяет сравнивать возможности моделей по анализу изображений . В отличие от стандартных бенчмарков, здесь используется «слепое тестирование»: пользователи загружают картинку, задают вопрос двум анонимным моделям и выбирают лучший ответ.
Текущий рейтинг Vision Leaderboard:
- GPT-4o — безусловный лидер .
- Claude 3.5 Sonnet — второе место .
- Gemini 1.5 Pro и GPT-4 Turbo — делят третье место .
Уэс Рот обращает внимание на интересную закономерность: некоторые модели показывают огромный разрыв в качестве работы с текстом и изображениями. Например, Claude 3 Opus значительно теряет позиции при переходе к визуальным задачам, в то время как GPT-4o и Claude 3.5 Sonnet демонстрируют практически одинаково высокий уровень в обеих категориях .
Примечательно, что в топ-10 попала открытая модель LLaVA, занявшая 8-е место, что Рот считает хорошим знаком для сообщества Open Source .
🕵️ Практические тесты: от диагностики авто до классики видеоигр 15:15
Для проверки возможностей моделей Уэс Рот провел серию тестов, загружая сложные изображения и анализируя ответы ИИ.
Кейс 1: Приборная панель автомобиля При анализе фотографии запыленной приборной панели GPT-4o показала впечатляющие результаты:
- Распознала горящий индикатор неисправности тормозной системы .
- Точно считала пробег в километрах, хотя текст был крайне мелким и размытым .
- Правильно определила уровень топлива и температуру двигателя .
- Единственная ошибка: модель предположила, что двигатель работает на холостом ходу, хотя обороты были на нуле .
Кейс 2: Тест на знание контекста (Doom) Автор загрузил скриншот стрима, на котором запечатлены создатели культовой игры Doom — Джон Ромеро и Джон Кармак, — и попросил ИИ составить диалог между ними .
- GPT-4o и Gemini 1.5 Pro мгновенно узнали разработчиков по лицам, поняли, что речь идет об игре Doom, и даже использовали в диалоге технические детали (например, названия уровней типа E1M4) .
- Claude 3.5 Sonnet, несмотря на второе место в общем рейтинге, в этом тесте показала себя слабее: она либо выдавала общие описания «двух мужчин», либо вовсе отказывалась отвечать из-за цензурных фильтров .
Уэс Рот заключает, что развитие зрения является следующим «большим фронтиром» для больших языковых моделей. Это критически важно для создания ИИ-агентов, которые смогут полноценно взаимодействовать с интерфейсом компьютера и выполнять сложные задачи, основываясь на визуальной обратной связи .