# OpenAI представила GPT-4o: почему модель «Omni» называют революцией в интерфейсах и «кусочком AGI»

Источник: https://www.youtube.com/watch?v=sboaADsDCc8
Канал: Wes Roth
Опубликовано: 13.05.2024

---

Компания OpenAI представила новую флагманскую модель GPT-4o, где буква «o» означает «Omni» (всеобъемлющая). Эта нейросеть способна воспринимать и генерировать текст, аудио и изображения в реальном времени, максимально приближая взаимодействие с компьютером к естественному человеческому общению. Ведущий канала Wes Roth анализирует технические прорывы новинки, её влияние на рынок и перспективы интеграции в экосистему Apple.

## 🧠 Природа «Omni»: переход от лоскутного одеяла к единому разуму
[[JUMP:0:00]]

Главным отличием GPT-4o от предыдущих итераций является её архитектура. До этого момента голосовой режим в ChatGPT представлял собой «Франкенштейна», сшитого из трёх разных моделей: первая (Whisper) преобразовывала речь в текст, вторая (собственно GPT) обрабатывала текст, а третья переводила ответ обратно в аудио [1:19]. По словам Уэса Рота, такая цепочка приводила к потере огромного пласта информации: нейросеть не могла напрямую «слышать» интонации, распознавать фоновый шум или нескольких говорящих одновременно [2:01].

Технические характеристики новой модели включают:

*   Задержка ответа (latency): до 232 миллисекунд, что сопоставимо с реакцией человека в разговоре [0:40].
*   Среднее время ответа: 320 миллисекунд [16:44].
*   Архитектура: единая нейросеть, обученная «сквозным» методом (end-to-end) на тексте, видео и аудио [2:14].
*   Стоимость и скорость: в 2 раза быстрее и на 50% дешевле в использовании через API по сравнению с GPT-4 Turbo [0:54].

Уэс Рот отмечает, что старая система вызывала ощущение разговора по рации: «вы говорите, нажимаете "приём" и ждёте ответа» [1:06]. Теперь же, благодаря интеграции всех модальностей в одну сеть, модель способна выражать эмоции, петь и даже смеяться [2:14].

## 🎨 Визуальные и креативные возможности: от шрифтов до 3D
[[JUMP:2:40]]

Новая модель демонстрирует впечатляющие способности в работе с графикой и текстом внутри изображений, что раньше было слабым местом диффузионных моделей. OpenAI показала примеры генерации последовательных персонажей и сложной типографики.

Среди ключевых возможностей визуализации:

*   Создание консистентных персонажей: пример с «почтальоном Салли», которая сохраняет внешность в разных сценариях (улыбается камере, убегает от собаки, спотыкается) [4:11].
*   Генерация шрифтов: GPT-4o способна создавать целые алфавиты в заданном стиле — от футуристичного до викторианского стимпанка [3:19].
*   Синтез 3D-объектов: модель может генерировать 3D-рендеринги, например, логотипа OpenAI или морского льва [5:05].
*   Фигурная поэзия (Concrete poetry): создание текста, форма которого в точности повторяет контуры заданного логотипа [4:51].

Рот признаётся, что хотя через несколько месяцев эти функции могут перестать казаться магией, сейчас они выглядят «невероятно и революционно» [5:34].

## 📊 Бенчмарки и лидерство на рынке
[[JUMP:6:00]]

GPT-4o устанавливает новые рекорды в тестах производительности. На графиках сравнения видно, что модель либо опережает, либо идёт вровень с такими гигантами, как Claude 3 Opus от Anthropic и Gemini Pro 1.5 от Google [6:25].

Основные показатели эффективности:

*   MMLU (Zero-shot Chain of Thought): новый рекорд — 88.7% [6:51].
*   Токенизация: модель стала значительно эффективнее работать с неанглийскими языками. Уэс Рот указывает на сокращение количества токенов в 2–3.5 раза для различных языков, что делает использование нейросети дешевле и быстрее для пользователей по всему миру [7:18].
*   Кодинг: подтвердилось, что загадочная модель «im-also-a-good-gpt2-chatbot», ранее появившаяся в LMSYS Chatbot Arena, на самом деле была GPT-4o [19:08]. Она демонстрирует значительный отрыв в навыках программирования [19:20].

## 🛡️ Безопасность и доступность: ИИ для миллиардов
[[JUMP:7:31]]

OpenAI меняет стратегию распространения, делая свои самые мощные инструменты доступными для бесплатных пользователей. Уэс Рот цитирует Сэма Альтмана, который утверждает, что миссия компании — предоставлять передовые модели бесплатно или по очень низкой цене [9:31].

Планы по запуску включают:

*   Бесплатный уровень: пользователи получат доступ к GPT-4o и продвинутому анализу данных (Advanced Data Analytics) с определёнными ограничениями по количеству сообщений [8:10].
*   Платная подписка (Plus): лимиты в 5 раз выше, чем на бесплатном уровне [8:23].
*   Голосовой режим: новый «Alpha»-режим для Plus-пользователей будет запущен в ближайшие недели [19:34].
*   API: разработчики уже могут использовать текстовые и визуальные возможности модели [8:50].

В вопросах безопасности OpenAI проявляет осторожность: на старте голосовой режим будет ограничен набором предустановленных голосов, чтобы минимизировать риски, связанные с аудио-модальностью [7:57].

## 📱 Сэм Альтман, фильм «Она» и альянс с Apple
[[JUMP:10:37]]

Сэм Альтман в своём блоге признался, что GPT-4o кажется ему лучшим компьютерным интерфейсом, который он когда-либо пробовал [10:37]. Он сравнил новую модель с искусственным интеллектом из фильмов, в частности, из картины Спайка Джонса «Она» (Her) [10:37].

Уэс Рот обсуждает слухи о возможной сделке между OpenAI и Apple. По его мнению, интеграция такой технологии в iPhone могла бы стать «убийственной фичей» [11:42]. Доктор Джим Фан, старший исследователь ИИ в NVIDIA, предполагает три уровня интеграции с iOS:

1.  Полная замена Siri на GPT-4o [21:30].
2.  Работа части модели непосредственно на устройстве (on-device) для базовых задач [21:30].
3.  Использование API системы для управления умным домом и приложениями [21:42].

Рот отмечает, что во время демонстрации модель вела себя «немного кокетливо», что явно указывает на попытку OpenAI создать более эмоционально вовлечённого ассистента [20:50].

## 🚀 Угроза для стартапов и «смерть» конкурентов
[[JUMP:12:46]]

Появление GPT-4o ставит под удар множество компаний, которые строили свой бизнес на «обёртках» вокруг предыдущих моделей OpenAI. Ведущий задаётся вопросом: что теперь будет с сервисами, которые просто соединяли синтез речи с текстом от GPT? [24:08]

Анализ рыночной ситуации:

*   Скорость против специализированного железа: Рот сравнивает скорость GPT-4o с чипами Groq. Хотя Groq очень быстр при работе с Llama 3, задержка всё равно выше из-за необходимости раздельной обработки текста и речи [15:51].
*   Конец «многоножек»: Рот использует метафору «AI model centipede» для описания старых систем из нескольких моделей. Единая модель Omni делает такие конструкции архаичными [18:28].
*   Стратегия OpenAI: компания даёт понять разработчикам — «стройте ПОВЕРХ OpenAI, а не РЯДОМ с ней». Попытки добавлять функции, которых не хватает в базовой модели, теперь имеют очень ограниченный запас времени до того, как OpenAI внедрит их сама [25:11].

Уэс Рот заключает, что OpenAI вернула себе корону лидера не только за счёт сухих цифр в бенчмарках, но и за счёт уникального пользовательского опыта, который пока не может повторить ни один конкурент [12:34].