OpenAI представила GPT-4o: почему модель «Omni» называют революцией в интерфейсах и «кусочком AGI»

Компания OpenAI представила новую флагманскую модель GPT-4o, где буква «o» означает «Omni» (всеобъемлющая). Эта нейросеть способна воспринимать и генерировать текст, аудио и изображения в реальном времени, максимально приближая взаимодействие с компьютером к естественному человеческому общению. Ведущий канала Wes Roth анализирует технические прорывы новинки, её влияние на рынок и перспективы интеграции в экосистему Apple.

🧠 Природа «Omni»: переход от лоскутного одеяла к единому разуму 0:00

Главным отличием GPT-4o от предыдущих итераций является её архитектура. До этого момента голосовой режим в ChatGPT представлял собой «Франкенштейна», сшитого из трёх разных моделей: первая (Whisper) преобразовывала речь в текст, вторая (собственно GPT) обрабатывала текст, а третья переводила ответ обратно в аудио . По словам Уэса Рота, такая цепочка приводила к потере огромного пласта информации: нейросеть не могла напрямую «слышать» интонации, распознавать фоновый шум или нескольких говорящих одновременно .

Технические характеристики новой модели включают:

Задержка ответа (latency): до 232 миллисекунд, что сопоставимо с реакцией человека в разговоре .
Среднее время ответа: 320 миллисекунд .
Архитектура: единая нейросеть, обученная «сквозным» методом (end-to-end) на тексте, видео и аудио .
Стоимость и скорость: в 2 раза быстрее и на 50% дешевле в использовании через API по сравнению с GPT-4 Turbo .

Уэс Рот отмечает, что старая система вызывала ощущение разговора по рации: «вы говорите, нажимаете "приём" и ждёте ответа» . Теперь же, благодаря интеграции всех модальностей в одну сеть, модель способна выражать эмоции, петь и даже смеяться .

🎨 Визуальные и креативные возможности: от шрифтов до 3D 2:40

Новая модель демонстрирует впечатляющие способности в работе с графикой и текстом внутри изображений, что раньше было слабым местом диффузионных моделей. OpenAI показала примеры генерации последовательных персонажей и сложной типографики.

Среди ключевых возможностей визуализации:

Создание консистентных персонажей: пример с «почтальоном Салли», которая сохраняет внешность в разных сценариях (улыбается камере, убегает от собаки, спотыкается) .
Генерация шрифтов: GPT-4o способна создавать целые алфавиты в заданном стиле — от футуристичного до викторианского стимпанка .
Синтез 3D-объектов: модель может генерировать 3D-рендеринги, например, логотипа OpenAI или морского льва .
Фигурная поэзия (Concrete poetry): создание текста, форма которого в точности повторяет контуры заданного логотипа .

Рот признаётся, что хотя через несколько месяцев эти функции могут перестать казаться магией, сейчас они выглядят «невероятно и революционно» .

📊 Бенчмарки и лидерство на рынке 6:00

GPT-4o устанавливает новые рекорды в тестах производительности. На графиках сравнения видно, что модель либо опережает, либо идёт вровень с такими гигантами, как Claude 3 Opus от Anthropic и Gemini Pro 1.5 от Google .

Основные показатели эффективности:

MMLU (Zero-shot Chain of Thought): новый рекорд — 88.7% .
Токенизация: модель стала значительно эффективнее работать с неанглийскими языками. Уэс Рот указывает на сокращение количества токенов в 2–3.5 раза для различных языков, что делает использование нейросети дешевле и быстрее для пользователей по всему миру .
Кодинг: подтвердилось, что загадочная модель «im-also-a-good-gpt2-chatbot», ранее появившаяся в LMSYS Chatbot Arena, на самом деле была GPT-4o . Она демонстрирует значительный отрыв в навыках программирования .

🛡️ Безопасность и доступность: ИИ для миллиардов 7:31

OpenAI меняет стратегию распространения, делая свои самые мощные инструменты доступными для бесплатных пользователей. Уэс Рот цитирует Сэма Альтмана, который утверждает, что миссия компании — предоставлять передовые модели бесплатно или по очень низкой цене .

Планы по запуску включают:

Бесплатный уровень: пользователи получат доступ к GPT-4o и продвинутому анализу данных (Advanced Data Analytics) с определёнными ограничениями по количеству сообщений .
Платная подписка (Plus): лимиты в 5 раз выше, чем на бесплатном уровне .
Голосовой режим: новый «Alpha»-режим для Plus-пользователей будет запущен в ближайшие недели .
API: разработчики уже могут использовать текстовые и визуальные возможности модели .

В вопросах безопасности OpenAI проявляет осторожность: на старте голосовой режим будет ограничен набором предустановленных голосов, чтобы минимизировать риски, связанные с аудио-модальностью .

📱 Сэм Альтман, фильм «Она» и альянс с Apple 10:37

Сэм Альтман в своём блоге признался, что GPT-4o кажется ему лучшим компьютерным интерфейсом, который он когда-либо пробовал . Он сравнил новую модель с искусственным интеллектом из фильмов, в частности, из картины Спайка Джонса «Она» (Her) .

Уэс Рот обсуждает слухи о возможной сделке между OpenAI и Apple. По его мнению, интеграция такой технологии в iPhone могла бы стать «убийственной фичей» . Доктор Джим Фан, старший исследователь ИИ в NVIDIA, предполагает три уровня интеграции с iOS:

Полная замена Siri на GPT-4o .
Работа части модели непосредственно на устройстве (on-device) для базовых задач .
Использование API системы для управления умным домом и приложениями .

Рот отмечает, что во время демонстрации модель вела себя «немного кокетливо», что явно указывает на попытку OpenAI создать более эмоционально вовлечённого ассистента .

🚀 Угроза для стартапов и «смерть» конкурентов 12:46

Появление GPT-4o ставит под удар множество компаний, которые строили свой бизнес на «обёртках» вокруг предыдущих моделей OpenAI. Ведущий задаётся вопросом: что теперь будет с сервисами, которые просто соединяли синтез речи с текстом от GPT?

Анализ рыночной ситуации:

Скорость против специализированного железа: Рот сравнивает скорость GPT-4o с чипами Groq. Хотя Groq очень быстр при работе с Llama 3, задержка всё равно выше из-за необходимости раздельной обработки текста и речи .
Конец «многоножек»: Рот использует метафору «AI model centipede» для описания старых систем из нескольких моделей. Единая модель Omni делает такие конструкции архаичными .
Стратегия OpenAI: компания даёт понять разработчикам — «стройте ПОВЕРХ OpenAI, а не РЯДОМ с ней». Попытки добавлять функции, которых не хватает в базовой модели, теперь имеют очень ограниченный запас времени до того, как OpenAI внедрит их сама .

Уэс Рот заключает, что OpenAI вернула себе корону лидера не только за счёт сухих цифр в бенчмарках, но и за счёт уникального пользовательского опыта, который пока не может повторить ни один конкурент .