# Уэс Рот: Модель OpenAI o1 превосходит Claude в кодинге и логических задачах

Источник: https://www.youtube.com/watch?v=cESc7v1G1uA
Канал: Wes Roth
Опубликовано: 13.09.2024

---

Появление новой модели искусственного интеллекта OpenAI o1 вызвало волну обсуждений в технологическом сообществе благодаря её выдающимся способностям к логическим рассуждениям, решению задач по физике уровня PhD и сложному программированию. Технологический обозреватель Уэс Рот провел серию стресс-тестов новой нейросети, чтобы выяснить, действительно ли она превосходит существующих лидеров рынка, таких как Claude от Anthropic.

## 🐍 Мастерство программирования: итеративная разработка игры
[[JUMP:0:00]]

Первым серьезным испытанием для OpenAI o1 стала задача по созданию игры «Змейка» с необычными условиями. В отличие от стандартных версий, в этой игре «едой» для змейки должны были стать персонажи Dungeons & Dragons, а сама змейка должна была увеличиваться на 10 единиц за каждый съеденный объект [0:38]. Модель успешно справилась с базовым кодом, визуализировав персонажей (клирик, друид, паладин) в текстовом виде и корректно реализовав механику роста и столкновений [1:17].

Наиболее впечатляющим аспектом стала способность модели к сложной итерации. Уэс Рот усложнил задачу, попросив:

*   Заменить персонажей на монстров (гоблины, драконы).
*   Ввести систему очков, зависящую от силы монстра (дракон дороже гоблина).
*   Добавить падающие с неба объекты, которые при попадании в змейку должны «отрезать» её хвост в точке столкновения [1:58].

По мнению Уэса Рота, этот промпт является крайне сложным, и многие современные модели, включая Claude, часто терпят на нем неудачу [2:24]. Однако o1 не только сохранила весь предыдущий функционал без ошибок, но и продемонстрировала глубокое «понимание» цели задачи. В процессе внутренних рассуждений модель отметила, что добавление счета создает «дофаминовый механизм обратной связи», делая игру более увлекательной [3:32].

После небольшого уточнения механики отсечения хвоста [4:42], модель выдала безупречно работающий код. Уэс Рот оценил этот результат на «10 из 10», утверждая, что в данном тесте o1 превзошла кодинг-способности модели Claude [5:37].

## 🧠 Логические задачи: физика и здравый смысл
[[JUMP:5:50]]

Для проверки базового логического мышления Уэс Рот использовал классические задачи-ловушки, на которых часто спотыкаются большие языковые модели (LLM).

1.  **Задача о мяче в чашке:** Боб кладет мяч в чашку в кухне, несет её в спальню и переворачивает вверх дном, после чего уходит в гараж. На вопрос «Где мяч?» o1 безошибочно ответила, что мяч выпал на пол в спальне [6:31]. Рот отмечает, что в течение последних двух лет большинство моделей давали правильный ответ лишь в половине случаев, тогда как o1 демонстрирует пугающе стабильную логику [7:10].
2.  **Временная логика (Мейбл):** Модели была дана информация о пульсе Мейбл в 9 утра и давлении в 7 вечера, при условии, что она умерла в 11 вечера. На вопрос, была ли она жива в полдень, o1 ответила утвердительно всего за 4 секунды раздумий [7:38].
3.  **Блоки и предикаты:** Модель успешно доказала утверждение о расположении цветных блоков в стопке, визуализировав все возможные варианты расстановки в процессе «мышления» [8:19].

## 🕵️ Логический детектив: «Убийство или самоубийство»
[[JUMP:8:43]]

Особый интерес вызвала задача о загадочной смерти тетушки Агаты в особняке Дредбери. Имея набор запутанных условий о ненависти, богатстве и обитателях дома, модель должна была вычислить убийцу.

В ходе 37-секундного процесса рассуждения o1 сначала предположила, что Агата не могла убить себя, но затем, анализируя исключения в условиях ненависти, пересмотрела свой вывод [9:36]. В итоге нейросеть пришла к единственно верному логическому выводу: тетушка Агата покончила с собой [10:17]. Рот подчеркивает уникальность того, как модель «показывает свою работу», позволяя проследить цепочку мыслей и найти точку, где она могла бы ошибиться [10:30].

## 🃏 Психологические тесты и когнитивные искажения
[[JUMP:10:51]]

OpenAI o1 успешно справилась с задачей выбора Уэйсона (Wason selection task) — классическим тестом на проверку дедуктивного рассуждения, в котором люди часто допускают ошибки из-за склонности к подтверждению своей точки зрения [11:20].

Модель четко сформулировала условие «если P, то Q» и определила, что для проверки истинности утверждения необходимо перевернуть:

*   Карту с числом 16 (кратное 4 — проверка P);
*   Карты с цветами, отличными от желтого (проверка «не Q», чтобы исключить «не Q и P») [12:15].

Уэс Рот признался, что сам ранее ошибался в этой задаче при тестировании системы Grok, тогда как o1 безупречно объяснила логику фальсифицируемости утверждения [11:34].

## 📖 Викторина с подтекстом: пословицы и скрытые смыслы
[[JUMP:12:49]]

Следующий тест проверял способность ИИ создавать сложные вопросы с вариантами ответа, где правильный ответ скрыт за историей-иллюстрацией. В качестве примера o1 сгенерировала историю о сотруднике Томе, который из любопытства заглянул в конфиденциальные файлы, что привело к его увольнению. Правильным ответом была пословица «Любопытство сгубило кошку» [13:34].

Ведущий обратил внимание на интересную деталь: история о Томе, по его мнению, может быть метафорическим отражением реальных событий в OpenAI, когда два исследователя (Леопольд Ашенбреннер и Павел Измайлов) были уволены за утечку информации, предположительно связанной с проектом Q* (Q-Star) [14:13].

Также обсуждались другие пословицы:

*   «Что посеешь, то и пожнешь» (на примере некачественной работы Тома, приведшей к потере клиента) [16:51].
*   «Не мой цирк — не мои обезьяны» (польская пословица о невмешательстве в чужую драму). Уэс Рот привел аналогию с Андреем Карпатым, который, по словам автора, предпочел «отсидеться в стороне» во время скандала с увольнением Сэма Альтмана [18:46].

## ⛓️ Труднейшие головоломки: веревки и сетка мебели
[[JUMP:19:21]]

В завершение o1 столкнулась с задачами, которые Уэс Рот называет «перчатками долой».

1.  **Задача о двух веревках:** Как отмерить ровно 45 минут с помощью двух веревок, каждая из которых сгорает за час неравномерно? Модель предложила классическое, но сложное решение: поджечь первую веревку с двух концов, а вторую с одного, и в момент догорания первой (через 30 минут) поджечь второй конец второй веревки [20:21]. Это дает искомые 45 минут (30 + 15) [21:14].
2.  **Сетка 3x3:** Расстановка пяти предметов мебели при пяти взаимоисключающих условиях. Модель за 29 секунд выдала корректную сетку, удовлетворив все требования с первой попытки [22:48].

## 🚀 Будущее и наследие Q*
[[JUMP:22:56]]

По итогам тестов Уэс Рот сделал вывод, что OpenAI o1 работает на «совершенно ином уровне» по сравнению с любыми существующими моделями [23:01]. Он считает, что это доказывает наличие значительного потенциала для дальнейшего развития LLM, вопреки мнениям скептиков, утверждающих, что технологии достигли плато.

Рот связывает успех o1 с разработками в области Q* (Strawberry), слухи о которых циркулируют с ноября 2023 года [23:51]. По его предположению, в основе модели лежит фреймворк Self-Taught Reasoner (STaR), разработанный в Стэнфорде, который позволяет модели обучаться в процессе рассуждения [24:03]. Ведущий утверждает, что мы находимся на пороге новых больших скачков в развитии ИИ.