Уэс Рот: Модель OpenAI o1 превосходит Claude в кодинге и логических задачах

Wes Roth 49,9 тыс. 24 мин 5 мин 13.09.2024
Главное

Появление новой модели искусственного интеллекта OpenAI o1 вызвало волну обсуждений в технологическом сообществе благодаря её выдающимся способностям к логическим рассуждениям, решению задач по физике уровня PhD и сложному программированию. Технологический обозреватель Уэс Рот провел серию стресс-тестов новой нейросети, чтобы выяснить, действительно ли она превосходит существующих лидеров рынка, таких как Claude от Anthropic.

🐍 Мастерство программирования: итеративная разработка игры 0:00

Первым серьезным испытанием для OpenAI o1 стала задача по созданию игры «Змейка» с необычными условиями. В отличие от стандартных версий, в этой игре «едой» для змейки должны были стать персонажи Dungeons & Dragons, а сама змейка должна была увеличиваться на 10 единиц за каждый съеденный объект . Модель успешно справилась с базовым кодом, визуализировав персонажей (клирик, друид, паладин) в текстовом виде и корректно реализовав механику роста и столкновений .

Наиболее впечатляющим аспектом стала способность модели к сложной итерации. Уэс Рот усложнил задачу, попросив:

По мнению Уэса Рота, этот промпт является крайне сложным, и многие современные модели, включая Claude, часто терпят на нем неудачу . Однако o1 не только сохранила весь предыдущий функционал без ошибок, но и продемонстрировала глубокое «понимание» цели задачи. В процессе внутренних рассуждений модель отметила, что добавление счета создает «дофаминовый механизм обратной связи», делая игру более увлекательной .

После небольшого уточнения механики отсечения хвоста , модель выдала безупречно работающий код. Уэс Рот оценил этот результат на «10 из 10», утверждая, что в данном тесте o1 превзошла кодинг-способности модели Claude .

🧠 Логические задачи: физика и здравый смысл 5:50

Для проверки базового логического мышления Уэс Рот использовал классические задачи-ловушки, на которых часто спотыкаются большие языковые модели (LLM).

  1. Задача о мяче в чашке: Боб кладет мяч в чашку в кухне, несет её в спальню и переворачивает вверх дном, после чего уходит в гараж. На вопрос «Где мяч?» o1 безошибочно ответила, что мяч выпал на пол в спальне . Рот отмечает, что в течение последних двух лет большинство моделей давали правильный ответ лишь в половине случаев, тогда как o1 демонстрирует пугающе стабильную логику .
  2. Временная логика (Мейбл): Модели была дана информация о пульсе Мейбл в 9 утра и давлении в 7 вечера, при условии, что она умерла в 11 вечера. На вопрос, была ли она жива в полдень, o1 ответила утвердительно всего за 4 секунды раздумий .
  3. Блоки и предикаты: Модель успешно доказала утверждение о расположении цветных блоков в стопке, визуализировав все возможные варианты расстановки в процессе «мышления» .

🕵️ Логический детектив: «Убийство или самоубийство» 8:43

Особый интерес вызвала задача о загадочной смерти тетушки Агаты в особняке Дредбери. Имея набор запутанных условий о ненависти, богатстве и обитателях дома, модель должна была вычислить убийцу.

В ходе 37-секундного процесса рассуждения o1 сначала предположила, что Агата не могла убить себя, но затем, анализируя исключения в условиях ненависти, пересмотрела свой вывод . В итоге нейросеть пришла к единственно верному логическому выводу: тетушка Агата покончила с собой . Рот подчеркивает уникальность того, как модель «показывает свою работу», позволяя проследить цепочку мыслей и найти точку, где она могла бы ошибиться .

🃏 Психологические тесты и когнитивные искажения 10:51

OpenAI o1 успешно справилась с задачей выбора Уэйсона (Wason selection task) — классическим тестом на проверку дедуктивного рассуждения, в котором люди часто допускают ошибки из-за склонности к подтверждению своей точки зрения .

Модель четко сформулировала условие «если P, то Q» и определила, что для проверки истинности утверждения необходимо перевернуть:

Уэс Рот признался, что сам ранее ошибался в этой задаче при тестировании системы Grok, тогда как o1 безупречно объяснила логику фальсифицируемости утверждения .

📖 Викторина с подтекстом: пословицы и скрытые смыслы 12:49

Следующий тест проверял способность ИИ создавать сложные вопросы с вариантами ответа, где правильный ответ скрыт за историей-иллюстрацией. В качестве примера o1 сгенерировала историю о сотруднике Томе, который из любопытства заглянул в конфиденциальные файлы, что привело к его увольнению. Правильным ответом была пословица «Любопытство сгубило кошку» .

Ведущий обратил внимание на интересную деталь: история о Томе, по его мнению, может быть метафорическим отражением реальных событий в OpenAI, когда два исследователя (Леопольд Ашенбреннер и Павел Измайлов) были уволены за утечку информации, предположительно связанной с проектом Q* (Q-Star) .

Также обсуждались другие пословицы:

⛓️ Труднейшие головоломки: веревки и сетка мебели 19:21

В завершение o1 столкнулась с задачами, которые Уэс Рот называет «перчатками долой».

  1. Задача о двух веревках: Как отмерить ровно 45 минут с помощью двух веревок, каждая из которых сгорает за час неравномерно? Модель предложила классическое, но сложное решение: поджечь первую веревку с двух концов, а вторую с одного, и в момент догорания первой (через 30 минут) поджечь второй конец второй веревки . Это дает искомые 45 минут (30 + 15) .
  2. Сетка 3x3: Расстановка пяти предметов мебели при пяти взаимоисключающих условиях. Модель за 29 секунд выдала корректную сетку, удовлетворив все требования с первой попытки .

🚀 Будущее и наследие Q* 22:56

По итогам тестов Уэс Рот сделал вывод, что OpenAI o1 работает на «совершенно ином уровне» по сравнению с любыми существующими моделями . Он считает, что это доказывает наличие значительного потенциала для дальнейшего развития LLM, вопреки мнениям скептиков, утверждающих, что технологии достигли плато.

Рот связывает успех o1 с разработками в области Q* (Strawberry), слухи о которых циркулируют с ноября 2023 года . По его предположению, в основе модели лежит фреймворк Self-Taught Reasoner (STaR), разработанный в Стэнфорде, который позволяет модели обучаться в процессе рассуждения . Ведущий утверждает, что мы находимся на пороге новых больших скачков в развитии ИИ.

💬 Цитаты

«Это первая модель, которая раз за разом выдает верные рассуждения. Я не видел ничего близкого к этому.»

«OpenAI o1 победила практически всё, что я ей подбросил.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Задача выбора Уэйсона
Логическая задача на проверку способности человека к дедуктивному мышлению и выявлению ошибок в гипотезах.
Q* (Q-Star)
Кодовое название секретного проекта OpenAI, предположительно направленного на создание моделей с продвинутыми математическими и логическими способностями.
LLM
Большая языковая модель (Large Language Model) — алгоритм ИИ, обученный на огромных объемах текста для генерации ответов.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2023 Первое появление слухов о проекте Q* и Strawberry после временного увольнения Сэма Альтмана.
  2. Сентябрь 2024 Проведение тестов модели OpenAI o1 автором видео Уэсом Ротом.
⚖️ Другая сторона
Искусственный интеллект OpenAI o1 Wes Roth Claude логическое мышление Q-Star