OpenAI представила GPT-4o: почему модель «Omni» называют революцией в интерфейсах и «кусочком AGI»

Wes Roth 54,8 тыс. 25 мин 5 мин 13.05.2024
Главное

Компания OpenAI представила новую флагманскую модель GPT-4o, где буква «o» означает «Omni» (всеобъемлющая). Эта нейросеть способна воспринимать и генерировать текст, аудио и изображения в реальном времени, максимально приближая взаимодействие с компьютером к естественному человеческому общению. Ведущий канала Wes Roth анализирует технические прорывы новинки, её влияние на рынок и перспективы интеграции в экосистему Apple.

🧠 Природа «Omni»: переход от лоскутного одеяла к единому разуму 0:00

Главным отличием GPT-4o от предыдущих итераций является её архитектура. До этого момента голосовой режим в ChatGPT представлял собой «Франкенштейна», сшитого из трёх разных моделей: первая (Whisper) преобразовывала речь в текст, вторая (собственно GPT) обрабатывала текст, а третья переводила ответ обратно в аудио . По словам Уэса Рота, такая цепочка приводила к потере огромного пласта информации: нейросеть не могла напрямую «слышать» интонации, распознавать фоновый шум или нескольких говорящих одновременно .

Технические характеристики новой модели включают:

Уэс Рот отмечает, что старая система вызывала ощущение разговора по рации: «вы говорите, нажимаете "приём" и ждёте ответа» . Теперь же, благодаря интеграции всех модальностей в одну сеть, модель способна выражать эмоции, петь и даже смеяться .

🎨 Визуальные и креативные возможности: от шрифтов до 3D 2:40

Новая модель демонстрирует впечатляющие способности в работе с графикой и текстом внутри изображений, что раньше было слабым местом диффузионных моделей. OpenAI показала примеры генерации последовательных персонажей и сложной типографики.

Среди ключевых возможностей визуализации:

Рот признаётся, что хотя через несколько месяцев эти функции могут перестать казаться магией, сейчас они выглядят «невероятно и революционно» .

📊 Бенчмарки и лидерство на рынке 6:00

GPT-4o устанавливает новые рекорды в тестах производительности. На графиках сравнения видно, что модель либо опережает, либо идёт вровень с такими гигантами, как Claude 3 Opus от Anthropic и Gemini Pro 1.5 от Google .

Основные показатели эффективности:

🛡️ Безопасность и доступность: ИИ для миллиардов 7:31

OpenAI меняет стратегию распространения, делая свои самые мощные инструменты доступными для бесплатных пользователей. Уэс Рот цитирует Сэма Альтмана, который утверждает, что миссия компании — предоставлять передовые модели бесплатно или по очень низкой цене .

Планы по запуску включают:

В вопросах безопасности OpenAI проявляет осторожность: на старте голосовой режим будет ограничен набором предустановленных голосов, чтобы минимизировать риски, связанные с аудио-модальностью .

📱 Сэм Альтман, фильм «Она» и альянс с Apple 10:37

Сэм Альтман в своём блоге признался, что GPT-4o кажется ему лучшим компьютерным интерфейсом, который он когда-либо пробовал . Он сравнил новую модель с искусственным интеллектом из фильмов, в частности, из картины Спайка Джонса «Она» (Her) .

Уэс Рот обсуждает слухи о возможной сделке между OpenAI и Apple. По его мнению, интеграция такой технологии в iPhone могла бы стать «убийственной фичей» . Доктор Джим Фан, старший исследователь ИИ в NVIDIA, предполагает три уровня интеграции с iOS:

  1. Полная замена Siri на GPT-4o .
  2. Работа части модели непосредственно на устройстве (on-device) для базовых задач .
  3. Использование API системы для управления умным домом и приложениями .

Рот отмечает, что во время демонстрации модель вела себя «немного кокетливо», что явно указывает на попытку OpenAI создать более эмоционально вовлечённого ассистента .

🚀 Угроза для стартапов и «смерть» конкурентов 12:46

Появление GPT-4o ставит под удар множество компаний, которые строили свой бизнес на «обёртках» вокруг предыдущих моделей OpenAI. Ведущий задаётся вопросом: что теперь будет с сервисами, которые просто соединяли синтез речи с текстом от GPT?

Анализ рыночной ситуации:

Уэс Рот заключает, что OpenAI вернула себе корону лидера не только за счёт сухих цифр в бенчмарках, но и за счёт уникального пользовательского опыта, который пока не может повторить ни один конкурент .

💬 Цитаты

«Это похоже на ИИ из фильмов, которые вы когда-либо видели. То, что мы достигли человеческого времени отклика и выразительности, оказывается огромным изменением.»

Сэм Альтман 10:37

«Разговор с компьютером никогда не казался мне естественным. Теперь кажется.»

Сэм Альтман 11:17

«Если вы собираетесь строить — стройте поверх OpenAI. Те компании, которые пытаются добавить недостающую функцию к тому, чем должна быть OpenAI, имеют ограниченный запас времени.»

👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Omni (Omnidirectional)
В контексте GPT-4o — способность модели бесшовно работать со всеми типами входных данных (текст, аудио, видео) в рамках одной нейросети.
Latency (Задержка)
Время между окончанием фразы пользователя и началом ответа системы.
End-to-end training
Метод обучения, при котором одна модель учится выполнять всю задачу целиком, без промежуточных этапов обработки другими алгоритмами.
MMLU
Популярный тест для оценки способностей языковых моделей к пониманию текстов на широком круге тем.
Tokenization
Процесс разбиения текста на смысловые единицы (токены), за обработку которых взимается плата в API.
📊 Цифры
🗓 Хронология
  1. Май 2024 Анонс модели GPT-4o и её интеграция в бесплатную версию ChatGPT.
  2. Ближайшие недели Планируемый запуск нового голосового режима Alpha для пользователей ChatGPT Plus.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-4o Sam Altman Omni model AGI