Компания OpenAI представила новую флагманскую модель GPT-4o, где буква «o» означает «Omni» (всеобъемлющая). Эта нейросеть способна воспринимать и генерировать текст, аудио и изображения в реальном времени, максимально приближая взаимодействие с компьютером к естественному человеческому общению. Ведущий канала Wes Roth анализирует технические прорывы новинки, её влияние на рынок и перспективы интеграции в экосистему Apple.
🧠 Природа «Omni»: переход от лоскутного одеяла к единому разуму 0:00
Главным отличием GPT-4o от предыдущих итераций является её архитектура. До этого момента голосовой режим в ChatGPT представлял собой «Франкенштейна», сшитого из трёх разных моделей: первая (Whisper) преобразовывала речь в текст, вторая (собственно GPT) обрабатывала текст, а третья переводила ответ обратно в аудио . По словам Уэса Рота, такая цепочка приводила к потере огромного пласта информации: нейросеть не могла напрямую «слышать» интонации, распознавать фоновый шум или нескольких говорящих одновременно .
Технические характеристики новой модели включают:
- Задержка ответа (latency): до 232 миллисекунд, что сопоставимо с реакцией человека в разговоре .
- Среднее время ответа: 320 миллисекунд .
- Архитектура: единая нейросеть, обученная «сквозным» методом (end-to-end) на тексте, видео и аудио .
- Стоимость и скорость: в 2 раза быстрее и на 50% дешевле в использовании через API по сравнению с GPT-4 Turbo .
Уэс Рот отмечает, что старая система вызывала ощущение разговора по рации: «вы говорите, нажимаете "приём" и ждёте ответа» . Теперь же, благодаря интеграции всех модальностей в одну сеть, модель способна выражать эмоции, петь и даже смеяться .
🎨 Визуальные и креативные возможности: от шрифтов до 3D 2:40
Новая модель демонстрирует впечатляющие способности в работе с графикой и текстом внутри изображений, что раньше было слабым местом диффузионных моделей. OpenAI показала примеры генерации последовательных персонажей и сложной типографики.
Среди ключевых возможностей визуализации:
- Создание консистентных персонажей: пример с «почтальоном Салли», которая сохраняет внешность в разных сценариях (улыбается камере, убегает от собаки, спотыкается) .
- Генерация шрифтов: GPT-4o способна создавать целые алфавиты в заданном стиле — от футуристичного до викторианского стимпанка .
- Синтез 3D-объектов: модель может генерировать 3D-рендеринги, например, логотипа OpenAI или морского льва .
- Фигурная поэзия (Concrete poetry): создание текста, форма которого в точности повторяет контуры заданного логотипа .
Рот признаётся, что хотя через несколько месяцев эти функции могут перестать казаться магией, сейчас они выглядят «невероятно и революционно» .
📊 Бенчмарки и лидерство на рынке 6:00
GPT-4o устанавливает новые рекорды в тестах производительности. На графиках сравнения видно, что модель либо опережает, либо идёт вровень с такими гигантами, как Claude 3 Opus от Anthropic и Gemini Pro 1.5 от Google .
Основные показатели эффективности:
- MMLU (Zero-shot Chain of Thought): новый рекорд — 88.7% .
- Токенизация: модель стала значительно эффективнее работать с неанглийскими языками. Уэс Рот указывает на сокращение количества токенов в 2–3.5 раза для различных языков, что делает использование нейросети дешевле и быстрее для пользователей по всему миру .
- Кодинг: подтвердилось, что загадочная модель «im-also-a-good-gpt2-chatbot», ранее появившаяся в LMSYS Chatbot Arena, на самом деле была GPT-4o . Она демонстрирует значительный отрыв в навыках программирования .
🛡️ Безопасность и доступность: ИИ для миллиардов 7:31
OpenAI меняет стратегию распространения, делая свои самые мощные инструменты доступными для бесплатных пользователей. Уэс Рот цитирует Сэма Альтмана, который утверждает, что миссия компании — предоставлять передовые модели бесплатно или по очень низкой цене .
Планы по запуску включают:
- Бесплатный уровень: пользователи получат доступ к GPT-4o и продвинутому анализу данных (Advanced Data Analytics) с определёнными ограничениями по количеству сообщений .
- Платная подписка (Plus): лимиты в 5 раз выше, чем на бесплатном уровне .
- Голосовой режим: новый «Alpha»-режим для Plus-пользователей будет запущен в ближайшие недели .
- API: разработчики уже могут использовать текстовые и визуальные возможности модели .
В вопросах безопасности OpenAI проявляет осторожность: на старте голосовой режим будет ограничен набором предустановленных голосов, чтобы минимизировать риски, связанные с аудио-модальностью .
📱 Сэм Альтман, фильм «Она» и альянс с Apple 10:37
Сэм Альтман в своём блоге признался, что GPT-4o кажется ему лучшим компьютерным интерфейсом, который он когда-либо пробовал . Он сравнил новую модель с искусственным интеллектом из фильмов, в частности, из картины Спайка Джонса «Она» (Her) .
Уэс Рот обсуждает слухи о возможной сделке между OpenAI и Apple. По его мнению, интеграция такой технологии в iPhone могла бы стать «убийственной фичей» . Доктор Джим Фан, старший исследователь ИИ в NVIDIA, предполагает три уровня интеграции с iOS:
- Полная замена Siri на GPT-4o .
- Работа части модели непосредственно на устройстве (on-device) для базовых задач .
- Использование API системы для управления умным домом и приложениями .
Рот отмечает, что во время демонстрации модель вела себя «немного кокетливо», что явно указывает на попытку OpenAI создать более эмоционально вовлечённого ассистента .
🚀 Угроза для стартапов и «смерть» конкурентов 12:46
Появление GPT-4o ставит под удар множество компаний, которые строили свой бизнес на «обёртках» вокруг предыдущих моделей OpenAI. Ведущий задаётся вопросом: что теперь будет с сервисами, которые просто соединяли синтез речи с текстом от GPT?
Анализ рыночной ситуации:
- Скорость против специализированного железа: Рот сравнивает скорость GPT-4o с чипами Groq. Хотя Groq очень быстр при работе с Llama 3, задержка всё равно выше из-за необходимости раздельной обработки текста и речи .
- Конец «многоножек»: Рот использует метафору «AI model centipede» для описания старых систем из нескольких моделей. Единая модель Omni делает такие конструкции архаичными .
- Стратегия OpenAI: компания даёт понять разработчикам — «стройте ПОВЕРХ OpenAI, а не РЯДОМ с ней». Попытки добавлять функции, которых не хватает в базовой модели, теперь имеют очень ограниченный запас времени до того, как OpenAI внедрит их сама .
Уэс Рот заключает, что OpenAI вернула себе корону лидера не только за счёт сухих цифр в бенчмарках, но и за счёт уникального пользовательского опыта, который пока не может повторить ни один конкурент .