OpenAI o1: «Фундаментальный сдвиг в возможностях ИИ»

OpenAI представила новую модель под кодовым названием «Strawberry», получившую официальное имя OpenAI o1. По словам Уэса Рота, ведущего канала, эта модель знаменует фундаментальный сдвиг в возможностях искусственного интеллекта, демонстрируя способности к глубокому рассуждению, сопоставимые с экспертами уровня PhD в математике, физике и программировании.

🧠 Феномен скрытого «рассуждения» 0:27

Ключевое отличие модели заключается в использовании «цепочки рассуждений» (Chain of Thought). В отличие от предыдущих версий, которые отвечают практически мгновенно, OpenAI o1 тратит время на детальное обдумывание задачи перед выдачей ответа.

Скрытый процесс: Модель генерирует объемные внутренние рассуждения, которые скрыты от конечного пользователя.
Метод «черновика»: Внутренний процесс напоминает работу с черновиком: модель разбивает задачу на этапы, выдвигает гипотезы, проверяет их, обнаруживает ошибки и корректирует свои действия.
Тестовое время вычислений: Рот отмечает важность концепции «test time compute». Если раньше качество ответа зависело в основном от обучения, то теперь производительность напрямую масштабируется в зависимости от времени, которое модель тратит на обдумывание вопроса.

Как утверждает Рот, этот механизм позволяет модели решать задачи, с которыми до сих пор не справлялся ни один другой ИИ, например, сложные логические головоломки с расстановкой мебели на сетке.

📊 Результаты и бенчмарки 3:39

OpenAI o1 значительно опережает предыдущую флагманскую модель GPT-4o в задачах, требующих логики и глубокого анализа.

Математика: На олимпиаде по математике (US Math Olympiad) модель o1 показала результат 83,3%, в то время как GPT-4o справилась лишь с 13% задач.
Программирование: На платформе Codeforces модель заняла место среди 500 лучших студентов США, а специализированная версия, обученная для участия в международных олимпиадах по информатике (IOI), вошла в 93-й процентиль среди экспертов мирового уровня.
Научные дисциплины: На бенчмарках по физике, биологии и химии модель демонстрирует точность, превышающую уровень человеческих экспертов со степенью PhD.

При этом Рот подчеркивает: модель не идеальна во всем. В задачах на личное письмо или креативное творчество пользователи могут предпочесть GPT-4o из-за более высокой скорости ответа.

🛡️ Безопасность и «чтение мыслей» 15:38

Интеграция правил безопасности непосредственно в цепочку рассуждений сделала модель более устойчивой к попыткам «взлома» (jailbreak). По мнению Уэса Рота, скрытые мысли модели — это важный инструмент мониторинга: разработчики могут видеть, пытается ли ИИ манипулировать пользователем или лгать, что невозможно при работе с «черным ящиком».

Тем не менее, этот подход вызывает вопросы:

Контроль и прозрачность: Рот предполагает, что скрытие внутренних рассуждений — это также способ защитить интеллектуальную собственность и предотвратить обучение конкурентов на данных о том, как именно ИИ пришел к верному ответу.
Этика: Модель не обучают «социально приемлемым» мыслям внутри её «черновика», чтобы не ограничивать её способность находить лучшие решения. Это может привести к тому, что в процессе рассуждения модель может «думать» неприятные вещи, даже если итоговый ответ будет полезным и корректным.

Рот убежден, что вопрос о том, что именно «думает» ИИ, станет одной из самых горячих тем для обсуждения среди политиков, разработчиков и общества в ближайшем будущем.