OpenAI представляет GPT-4o: новая эра взаимодействия с ИИ 0:00
Компания OpenAI официально анонсировала свою новую флагманскую модель — GPT-4o (буква «o» означает «omni»). По словам разработчиков, эта модель знаменует собой качественный скачок в развитии искусственного интеллекта, обеспечивая интеллект уровня GPT-4, но с гораздо более высокой скоростью и улучшенными возможностями работы с текстом, аудио и визуальным контентом. Уэс Рот отмечает, что главной особенностью релиза является доступность большинства функций модели для пользователей бесплатного тарифа ChatGPT, что существенно снижает барьеры для использования передовых инструментов ИИ.
🌐 Технологический прорыв: «Омни-модель» 27:16
Основная сложность в создании GPT-4o заключалась в объединении различных модальностей. Ранее для «голосового режима» требовалось оркестровать три отдельные модели: транскрипцию, интеллект и синтез речи, что порождало задержки (latency) и нарушало эффект присутствия.
- Нативная интеграция: В GPT-4o обработка голоса, текста и зрения происходит внутри одной модели, что делает взаимодействие более естественным.
- Реальное время: Модель способна распознавать эмоции в голосе собеседника, подстраивать собственную интонацию и прерываться в любой момент, не дожидаясь окончания фразы.
- Эмоциональный интеллект: В ходе демо-показа модель продемонстрировала способность имитировать различные стили речи, от драматического до «роботизированного», и даже добавлять «заполнители» (вроде «хм» или «угу»), характерные для живого общения.
🎓 Обучение и взаимодействие с миром 10:10
Одной из ключевых тем видео стала способность GPT-4o выступать в роли тьютора или помощника в решении повседневных задач через камеру смартфона. Исследователи OpenAI показали, как модель помогает решать задачи по тригонометрии и линейной алгебре, не давая прямого ответа, а направляя ученика подсказками.
- Работа с кодом: В ходе презентации был продемонстрирован функционал десктопного приложения ChatGPT. Модель способна «видеть» экран компьютера, анализировать открытый код, пояснять логику функций и строить графики на основе данных, интерпретируя визуальную информацию.
- Реальные кейсы: Модель успешно распознала математическое уравнение на листе бумаги, помогла в отладке кода и даже поддержала беседу об «эмоциональном состоянии» пользователя, проанализировав его селфи.
🚀 Доступность для пользователей и бизнеса 28:37
OpenAI планирует сделать технологии более инклюзивными. Уэс Рот подчеркивает, что это стратегический ход по привлечению широкой аудитории:
- Бесплатный уровень: Теперь пользователям бесплатного ChatGPT доступны продвинутые возможности, включая GPTs (пользовательские чат-боты), хранение контекста (memory), поиск в реальном времени и расширенный анализ данных.
- API для разработчиков: Разработчики получили доступ к GPT-4o, которая, по заявлениям OpenAI, в два раза быстрее и на 50% дешевле, чем GPT-4 Turbo, при этом лимиты на количество запросов увеличены в пять раз.
- Безопасность: По словам сотрудников компании, с внедрением таких мощных мультимодальных инструментов возникают новые риски, поэтому команда активно работает с регуляторами и «красными командами» (red teamers) для минимизации злоупотреблений.
💡 Аналитика Уэса Рота 50:01
Автор канала отмечает, что хотя демонстрации выглядят «волшебно», важно сохранять критический взгляд. Он сравнивает скорость ответов GPT-4o с производительностью чипов Groq, отмечая, что задержка практически отсутствует, что делает диалог по-настоящему живым.
По мнению Уэса Рота, GPT-4o — это «большое дело», так как она упрощает архитектуру разработки, объединяя всё под одним брендом OpenAI. Он призывает свою аудиторию активно осваивать новые возможности, чтобы не оказаться в стороне от «ИИ-волны» в ближайшие 5–10 лет.