Уэс Рот: «Голосовой режим OpenAI случайно утек в сеть и поразил пользователей реализмом»

Wes Roth 52,9 тыс. 25 мин 4 мин 29.06.2024
Главное

Развитие мультимодальных систем искусственного интеллекта переходит в фазу практического применения, где границы между текстом, звуком и видео окончательно размываются. В новом обзоре Уэс Рот (Wes Roth) анализирует последние события: случайную утечку продвинутого голосового режима OpenAI, впечатляющие возможности генерации видео от Runway Gen-3 и результаты первых «слепых тестов» зрения ИИ-моделей.

🎙️ Утечка голосового режима GPT-4o: новый уровень реализма 0:55

Долгожданный «Advanced Voice Mode» для ChatGPT, релиз которого OpenAI официально отложила, на короткое время стал доступен ограниченному числу пользователей из-за технической ошибки . Уэс Рот отмечает, что несколько альфа-тестеров успели продемонстрировать возможности модели в социальных сетях до того, как доступ был закрыт.

Ключевые особенности нового режима, замеченные в утечках:

По словам представителя OpenAI, приглашения были разосланы «небольшому количеству пользователей по ошибке», и сейчас проблема устранена . Официальное развертывание для пользователей версии Plus теперь запланировано на июль.

Уэс Рот выделяет две основные причины задержки релиза:

  1. Безопасность: Разработчики пытаются предотвратить нежелательные ответы. Как утверждает автор канала, существуют сообщества, занимающиеся «джейлбрейком» (взломом ограничений) моделей. В случае с голосом это может привести к генерации крайне непристойного или опасного контента с использованием реалистичных звуковых эффектов .
  2. Инфраструктура: Поддержание связи в реальном времени с почти нулевой задержкой (латентностью) требует огромных вычислительных мощностей при масштабировании на миллионы пользователей .

🎬 Runway Gen-3 Alpha: видео на уровне Sora 6:33

Компания Runway представила свою новую модель Gen-3 Alpha, которая, по оценке Рота, способна конкурировать с Sora от OpenAI. Автор проанализировал серию демонстрационных роликов, отметив значительный прогресс в физике и детализации .

Наиболее впечатляющие примеры визуализации:

Тем не менее, автор предостерегает, что демонстрационные ролики могут быть тщательно отобраны (cherry-picked) разработчиками. Реальное качество станет понятно только после того, как инструмент попадет в руки широкой аудитории .

👁️ Битва «зрительных» моделей: лидеры Chatbot Arena 11:43

Организация LMsys (Chatbot Arena) запустила новый рейтинг — Vision Leaderboard, который позволяет сравнивать возможности моделей по анализу изображений . В отличие от стандартных бенчмарков, здесь используется «слепое тестирование»: пользователи загружают картинку, задают вопрос двум анонимным моделям и выбирают лучший ответ.

Текущий рейтинг Vision Leaderboard:

  1. GPT-4o — безусловный лидер .
  2. Claude 3.5 Sonnet — второе место .
  3. Gemini 1.5 Pro и GPT-4 Turbo — делят третье место .

Уэс Рот обращает внимание на интересную закономерность: некоторые модели показывают огромный разрыв в качестве работы с текстом и изображениями. Например, Claude 3 Opus значительно теряет позиции при переходе к визуальным задачам, в то время как GPT-4o и Claude 3.5 Sonnet демонстрируют практически одинаково высокий уровень в обеих категориях .

Примечательно, что в топ-10 попала открытая модель LLaVA, занявшая 8-е место, что Рот считает хорошим знаком для сообщества Open Source .

🕵️ Практические тесты: от диагностики авто до классики видеоигр 15:15

Для проверки возможностей моделей Уэс Рот провел серию тестов, загружая сложные изображения и анализируя ответы ИИ.

Кейс 1: Приборная панель автомобиля При анализе фотографии запыленной приборной панели GPT-4o показала впечатляющие результаты:

Кейс 2: Тест на знание контекста (Doom) Автор загрузил скриншот стрима, на котором запечатлены создатели культовой игры Doom — Джон Ромеро и Джон Кармак, — и попросил ИИ составить диалог между ними .

Уэс Рот заключает, что развитие зрения является следующим «большим фронтиром» для больших языковых моделей. Это критически важно для создания ИИ-агентов, которые смогут полноценно взаимодействовать с интерфейсом компьютера и выполнять сложные задачи, основываясь на визуальной обратной связи .

💬 Цитаты

«Разногласия в акцентах были одной из жалоб на оригинал, потому что он звучал с типичным калифорнийским акцентом или манерой речи Кремниевой долины.»

«Хоррор-фильмы, созданные ИИ, имеют потенциал стать самыми пугающими вещами в истории.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Advanced Voice Mode
Новый режим общения с ChatGPT, обеспечивающий мгновенную реакцию и эмоциональную выразительность голоса.
Chatbot Arena
Платформа для сравнительного тестирования ИИ-моделей, где пользователи вслепую выбирают лучшие ответы.
Latent space (скрытое пространство)
Математическое пространство, в котором ИИ-модель хранит сжатые представления данных; в видео это часто проявляется в причудливых трансформациях объектов.
Jailbreak (джейлбрейк)
Методы обхода ограничений безопасности ИИ, позволяющие заставить модель генерировать запрещенный контент.
📊 Цифры
🗓 Хронология
  1. Май 2024 Анонс GPT-4o и его продвинутого голосового режима.
  2. Июнь 2024 Случайная утечка доступа к голосовому режиму для ряда пользователей.
  3. Июнь 2024 Запуск Vision Leaderboard на платформе Chatbot Arena.
  4. Июль 2024 Ожидаемый старт альфа-тестирования голосового режима для подписчиков ChatGPT Plus.
⚖️ Другая сторона
Искусственный интеллект OpenAI Runway Gen-3 GPT-4o Chatbot Arena Claude 3.5 Sonnet