Уэс Рот: Модель OpenAI o1 превосходит Claude в кодинге и логических задачах

Появление новой модели искусственного интеллекта OpenAI o1 вызвало волну обсуждений в технологическом сообществе благодаря её выдающимся способностям к логическим рассуждениям, решению задач по физике уровня PhD и сложному программированию. Технологический обозреватель Уэс Рот провел серию стресс-тестов новой нейросети, чтобы выяснить, действительно ли она превосходит существующих лидеров рынка, таких как Claude от Anthropic.

🐍 Мастерство программирования: итеративная разработка игры 0:00

Первым серьезным испытанием для OpenAI o1 стала задача по созданию игры «Змейка» с необычными условиями. В отличие от стандартных версий, в этой игре «едой» для змейки должны были стать персонажи Dungeons & Dragons, а сама змейка должна была увеличиваться на 10 единиц за каждый съеденный объект . Модель успешно справилась с базовым кодом, визуализировав персонажей (клирик, друид, паладин) в текстовом виде и корректно реализовав механику роста и столкновений .

Наиболее впечатляющим аспектом стала способность модели к сложной итерации. Уэс Рот усложнил задачу, попросив:

Заменить персонажей на монстров (гоблины, драконы).
Ввести систему очков, зависящую от силы монстра (дракон дороже гоблина).
Добавить падающие с неба объекты, которые при попадании в змейку должны «отрезать» её хвост в точке столкновения .

По мнению Уэса Рота, этот промпт является крайне сложным, и многие современные модели, включая Claude, часто терпят на нем неудачу . Однако o1 не только сохранила весь предыдущий функционал без ошибок, но и продемонстрировала глубокое «понимание» цели задачи. В процессе внутренних рассуждений модель отметила, что добавление счета создает «дофаминовый механизм обратной связи», делая игру более увлекательной .

После небольшого уточнения механики отсечения хвоста , модель выдала безупречно работающий код. Уэс Рот оценил этот результат на «10 из 10», утверждая, что в данном тесте o1 превзошла кодинг-способности модели Claude .

🧠 Логические задачи: физика и здравый смысл 5:50

Для проверки базового логического мышления Уэс Рот использовал классические задачи-ловушки, на которых часто спотыкаются большие языковые модели (LLM).

Задача о мяче в чашке: Боб кладет мяч в чашку в кухне, несет её в спальню и переворачивает вверх дном, после чего уходит в гараж. На вопрос «Где мяч?» o1 безошибочно ответила, что мяч выпал на пол в спальне . Рот отмечает, что в течение последних двух лет большинство моделей давали правильный ответ лишь в половине случаев, тогда как o1 демонстрирует пугающе стабильную логику .
Временная логика (Мейбл): Модели была дана информация о пульсе Мейбл в 9 утра и давлении в 7 вечера, при условии, что она умерла в 11 вечера. На вопрос, была ли она жива в полдень, o1 ответила утвердительно всего за 4 секунды раздумий .
Блоки и предикаты: Модель успешно доказала утверждение о расположении цветных блоков в стопке, визуализировав все возможные варианты расстановки в процессе «мышления» .

🕵️ Логический детектив: «Убийство или самоубийство» 8:43

Особый интерес вызвала задача о загадочной смерти тетушки Агаты в особняке Дредбери. Имея набор запутанных условий о ненависти, богатстве и обитателях дома, модель должна была вычислить убийцу.

В ходе 37-секундного процесса рассуждения o1 сначала предположила, что Агата не могла убить себя, но затем, анализируя исключения в условиях ненависти, пересмотрела свой вывод . В итоге нейросеть пришла к единственно верному логическому выводу: тетушка Агата покончила с собой . Рот подчеркивает уникальность того, как модель «показывает свою работу», позволяя проследить цепочку мыслей и найти точку, где она могла бы ошибиться .

🃏 Психологические тесты и когнитивные искажения 10:51

OpenAI o1 успешно справилась с задачей выбора Уэйсона (Wason selection task) — классическим тестом на проверку дедуктивного рассуждения, в котором люди часто допускают ошибки из-за склонности к подтверждению своей точки зрения .

Модель четко сформулировала условие «если P, то Q» и определила, что для проверки истинности утверждения необходимо перевернуть:

Карту с числом 16 (кратное 4 — проверка P);
Карты с цветами, отличными от желтого (проверка «не Q», чтобы исключить «не Q и P») .

Уэс Рот признался, что сам ранее ошибался в этой задаче при тестировании системы Grok, тогда как o1 безупречно объяснила логику фальсифицируемости утверждения .

📖 Викторина с подтекстом: пословицы и скрытые смыслы 12:49

Следующий тест проверял способность ИИ создавать сложные вопросы с вариантами ответа, где правильный ответ скрыт за историей-иллюстрацией. В качестве примера o1 сгенерировала историю о сотруднике Томе, который из любопытства заглянул в конфиденциальные файлы, что привело к его увольнению. Правильным ответом была пословица «Любопытство сгубило кошку» .

Ведущий обратил внимание на интересную деталь: история о Томе, по его мнению, может быть метафорическим отражением реальных событий в OpenAI, когда два исследователя (Леопольд Ашенбреннер и Павел Измайлов) были уволены за утечку информации, предположительно связанной с проектом Q* (Q-Star) .

Также обсуждались другие пословицы:

«Что посеешь, то и пожнешь» (на примере некачественной работы Тома, приведшей к потере клиента) .
«Не мой цирк — не мои обезьяны» (польская пословица о невмешательстве в чужую драму). Уэс Рот привел аналогию с Андреем Карпатым, который, по словам автора, предпочел «отсидеться в стороне» во время скандала с увольнением Сэма Альтмана .

⛓️ Труднейшие головоломки: веревки и сетка мебели 19:21

В завершение o1 столкнулась с задачами, которые Уэс Рот называет «перчатками долой».

Задача о двух веревках: Как отмерить ровно 45 минут с помощью двух веревок, каждая из которых сгорает за час неравномерно? Модель предложила классическое, но сложное решение: поджечь первую веревку с двух концов, а вторую с одного, и в момент догорания первой (через 30 минут) поджечь второй конец второй веревки . Это дает искомые 45 минут (30 + 15) .
Сетка 3x3: Расстановка пяти предметов мебели при пяти взаимоисключающих условиях. Модель за 29 секунд выдала корректную сетку, удовлетворив все требования с первой попытки .

🚀 Будущее и наследие Q* 22:56

По итогам тестов Уэс Рот сделал вывод, что OpenAI o1 работает на «совершенно ином уровне» по сравнению с любыми существующими моделями . Он считает, что это доказывает наличие значительного потенциала для дальнейшего развития LLM, вопреки мнениям скептиков, утверждающих, что технологии достигли плато.

Рот связывает успех o1 с разработками в области Q* (Strawberry), слухи о которых циркулируют с ноября 2023 года . По его предположению, в основе модели лежит фреймворк Self-Taught Reasoner (STaR), разработанный в Стэнфорде, который позволяет модели обучаться в процессе рассуждения . Ведущий утверждает, что мы находимся на пороге новых больших скачков в развитии ИИ.