# Уэс Рот об OpenAI: «GPT-4o меняет правила игры»

Источник: https://www.youtube.com/watch?v=jG7OQBXM1do
Канал: Wes Roth
Опубликовано: 13.05.2024

---

## OpenAI представляет GPT-4o: новая эра взаимодействия с ИИ
[[JUMP:0:00]]

Компания OpenAI официально анонсировала свою новую флагманскую модель — **GPT-4o** (буква «o» означает «omni»). По словам разработчиков, эта модель знаменует собой качественный скачок в развитии искусственного интеллекта, обеспечивая интеллект уровня GPT-4, но с гораздо более высокой скоростью и улучшенными возможностями работы с текстом, аудио и визуальным контентом. Уэс Рот отмечает, что главной особенностью релиза является доступность большинства функций модели для пользователей бесплатного тарифа ChatGPT, что существенно снижает барьеры для использования передовых инструментов ИИ.

### 🌐 Технологический прорыв: «Омни-модель»
[[JUMP:27:16]]

Основная сложность в создании GPT-4o заключалась в объединении различных модальностей. Ранее для «голосового режима» требовалось оркестровать три отдельные модели: транскрипцию, интеллект и синтез речи, что порождало задержки (latency) и нарушало эффект присутствия.

*   **Нативная интеграция:** В GPT-4o обработка голоса, текста и зрения происходит внутри одной модели, что делает взаимодействие более естественным.
*   **Реальное время:** Модель способна распознавать эмоции в голосе собеседника, подстраивать собственную интонацию и прерываться в любой момент, не дожидаясь окончания фразы.
*   **Эмоциональный интеллект:** В ходе демо-показа модель продемонстрировала способность имитировать различные стили речи, от драматического до «роботизированного», и даже добавлять «заполнители» (вроде «хм» или «угу»), характерные для живого общения.

### 🎓 Обучение и взаимодействие с миром
[[JUMP:10:10]]

Одной из ключевых тем видео стала способность GPT-4o выступать в роли тьютора или помощника в решении повседневных задач через камеру смартфона. Исследователи OpenAI показали, как модель помогает решать задачи по тригонометрии и линейной алгебре, не давая прямого ответа, а направляя ученика подсказками.

*   **Работа с кодом:** В ходе презентации был продемонстрирован функционал десктопного приложения ChatGPT. Модель способна «видеть» экран компьютера, анализировать открытый код, пояснять логику функций и строить графики на основе данных, интерпретируя визуальную информацию.
*   **Реальные кейсы:** Модель успешно распознала математическое уравнение на листе бумаги, помогла в отладке кода и даже поддержала беседу об «эмоциональном состоянии» пользователя, проанализировав его селфи.

### 🚀 Доступность для пользователей и бизнеса
[[JUMP:28:37]]

OpenAI планирует сделать технологии более инклюзивными. Уэс Рот подчеркивает, что это стратегический ход по привлечению широкой аудитории:

1.  **Бесплатный уровень:** Теперь пользователям бесплатного ChatGPT доступны продвинутые возможности, включая GPTs (пользовательские чат-боты), хранение контекста (memory), поиск в реальном времени и расширенный анализ данных.
2.  **API для разработчиков:** Разработчики получили доступ к GPT-4o, которая, по заявлениям OpenAI, в два раза быстрее и на 50% дешевле, чем GPT-4 Turbo, при этом лимиты на количество запросов увеличены в пять раз.
3.  **Безопасность:** По словам сотрудников компании, с внедрением таких мощных мультимодальных инструментов возникают новые риски, поэтому команда активно работает с регуляторами и «красными командами» (red teamers) для минимизации злоупотреблений.

### 💡 Аналитика Уэса Рота
[[JUMP:50:01]]

Автор канала отмечает, что хотя демонстрации выглядят «волшебно», важно сохранять критический взгляд. Он сравнивает скорость ответов GPT-4o с производительностью чипов Groq, отмечая, что задержка практически отсутствует, что делает диалог по-настоящему живым. 

По мнению Уэса Рота, GPT-4o — это «большое дело», так как она упрощает архитектуру разработки, объединяя всё под одним брендом OpenAI. Он призывает свою аудиторию активно осваивать новые возможности, чтобы не оказаться в стороне от «ИИ-волны» в ближайшие 5–10 лет.