Тим Скарф и Кит Даггер: «Модель o1 — это библиотека шаблонов, а не разум»

В новом эпизоде подкаста Machine Learning Street Talk (MLST) ведущий Тим Скарф (Tim Scarfe) и его соведущий Кит Даггер (Keith Dugger) подвергают критическому анализу последние достижения OpenAI — модели серии o1-preview и o1-mini. Основной темой дискуссии стало разграничение между тем, что маркетологи называют «рассуждением» (reasoning), и тем, что на самом деле происходит под капотом нейросетевых архитектур в контексте теории вычислений.

🧠 Природа рассуждений: Тьюринг против нейросетей 2:15

Кит Даггер утверждает, что понимание разницы между классами вычислений находится на «когнитивном горизонте» большинства людей, включая специалистов . Он подчеркивает фундаментальное различие между машиной Тьюринга, обладающей потенциально бесконечной памятью и неограниченным временем вычислений, и нейронными сетями в их нынешнем виде.

Основные тезисы Даггера о теории вычислений:

Память и лента Тьюринга: Классические компьютеры могли работать с внешними носителями (лентами). Если память заканчивалась, можно было вставить новую ленту, не перепрограммируя и не переобучая машину . Нейросети же ограничены архитектурно и не умеют запрашивать «больше памяти» в процессе инференса .
Эспоненциальный взрыв: Попытка превратить итеративный алгоритм (требующий машины Тьюринга) в прямой проход через нейронную сеть (foward pass) ведет к экспоненциальному росту размера модели . В качестве примера приводится умножение: его можно реализовать маленькой схемой, работающей итеративно, или гигантской схемой, делающей это за один шаг .
Эффективные вычисления: Кит определяет рассуждение как «эффективное вычисление в погоне за целью или получением знаний» . По его мнению, o1 выполняет лишь подмножество таких вычислений — крайне неглубокое и ограниченное.

📚 Механизм o1: Библиотека шаблонов, а не логика 15:36

Тим Скарф предлагает метафору «швейцарского сыра» для описания текущих возможностей ИИ . По его мнению, OpenAI не создали систему, которая рассуждает из первых принципов, а лишь натренировали модель на огромном количестве «траекторий рассуждений» (reasoning trajectories), подаренных людьми-учителями .

Механизм работы o1, по версии участников:

Сбор данных: Использовались синтетические данные и работа людей-экспертов, которые описывали пошаговое решение задач (Chain of Thought) .
RLHF и фильтрация: Модель генерировала тысячи вариантов решения, из которых отбирались только те, что привели к правильному ответу. Затем модель дообучалась имитировать эти успешные шаблоны .
Поиск по сходству: При получении нового запроса модель делает своего рода «хэширование по сходству» (locality sensitive hashing), подбирая наиболее близкий шаблон из своей базы .

Даггер сравнивает это с торговым автоматом в спортзале: автомат выполняет цепочку логических шагов («монета вставлена» -> «выбор сделан» -> «выдача напитка»), но никто не назовет это полноценным рассуждением . o1 — это невероятно сложный «торговый автомат», оперирующий не монетами, а статистическими паттернами текста .

🛠 Практический опыт: Кодинг и «коллапс режима» 32:19

Ведущие делятся опытом использования o1 в реальных задачах программирования. Тим Скарф отмечает феномен «mode collapse» (коллапса режима) в модели o1-mini .

Проблема контекста: o1-mini очень многословна при первом запросе и выдает отличный код. Однако при попытке продолжить диалог и перейти к смежной задаче, накопленный «скрытый» Chain of Thought начинает мешать модели, и она теряет нить рассуждений .
Превосходство Claude 3.5 Sonnet: Для длительных сессий кодинга Тим предпочитает Claude, так как она надежнее удерживает контекст (200k токенов) и не страдает от внутренних конфликтов между «режимом размышления» и «режимом ответа» .
Золотое правило: ИИ постоянно нарушает принцип «работает — не трогай». В попытках «улучшить» код модели часто удаляют важные куски логики или документацию, потому что не понимают скрытых предположений программиста .

🧩 Тест на «сообразительность»: Загадка про столп и переключатели 1:00:46

Чтобы проверить, действительно ли o1 способна к логическому выводу, Кит Даггер предложил сложную классическую головоломку :

Имеется столп с 4 отверстиями (Север, Юг, Восток, Запад), внутри которых находятся переключатели. Вы можете менять положение максимум двух переключателей за раз. Как только вы вынимаете руки, если не все переключатели в одном положении, столп вращается с огромной скоростью и останавливается в случайном положении (вы не знаете, где теперь Север, а где Юг). Задачу нужно решить гарантированно за 6 шагов, учитывая присутствие «гиперинтеллекта», который будет мешать, если полагаться на удачу.

Результаты теста:

o1-preview: Потратила 57 секунд на «размышления». Предложила неверную стратегию, основанную на простом переключении всех тумблеров вверх по очереди . Модель не поняла, что вращение обнуляет её знание о расположении переключателей .
o1-mini: Также провалила тест, предложив аналогичную примитивную стратегию .
GPT-4o: Единственная модель, которая хотя бы упомянула использование симметрий для решения, но всё равно не смогла выстроить корректный алгоритм .
Claude 3.5 Sonnet: Несмотря на более сложные рассуждения, также запуталась в итерациях и не выдала правильного ответа .

Этот эксперимент, по мнению Даггера, доказывает, что модели не умеют «воображать временные шаги» и отслеживать причинно-следственные связи в динамически меняющейся системе .

💰 Экономика и будущее: Зачем OpenAI всё это? 59:40

Тим Скарф предполагает, что стратегия OpenAI с o1 — это гениальный ход по превращению капитальных затрат (CapEx) в операционные (OpEx) .

Масштабирование во время инференса: Вместо того чтобы тратить миллиарды на экспоненциальное увеличение параметров модели, OpenAI заставляет пользователя платить за время вычислений (inference compute) .
«Кража» мотивов: Скарф иронично замечает, что OpenAI фактически «крадет» траектории рассуждений у своих пользователей. Каждый раз, когда человек поправляет модель и направляет её к решению, он создает идеальный обучающий пример для следующей итерации обучения .

В завершение дискуссии собеседники пришли к выводу, что o1 — это полезный инструмент, отлично справляющийся с синтаксисом и структурированием данных, но до настоящего автономного разума, способного решать проблемы вне своей «библиотеки шаблонов», еще очень далеко. Человеческий надзор остается обязательным элементом «симбиоза» человека и ИИ .