# Тим Скарф и Кит Даггер: «Модель o1 — это библиотека шаблонов, а не разум»

Источник: https://www.youtube.com/watch?v=nO6sDk6vO0g
Канал: Machine Learning Street Talk
Опубликовано: 15.09.2024

---

В новом эпизоде подкаста Machine Learning Street Talk (MLST) ведущий Тим Скарф (Tim Scarfe) и его соведущий Кит Даггер (Keith Dugger) подвергают критическому анализу последние достижения OpenAI — модели серии o1-preview и o1-mini. Основной темой дискуссии стало разграничение между тем, что маркетологи называют «рассуждением» (reasoning), и тем, что на самом деле происходит под капотом нейросетевых архитектур в контексте теории вычислений.

## 🧠 Природа рассуждений: Тьюринг против нейросетей
[[JUMP:2:15]]

Кит Даггер утверждает, что понимание разницы между классами вычислений находится на «когнитивном горизонте» большинства людей, включая специалистов [2:15]. Он подчеркивает фундаментальное различие между машиной Тьюринга, обладающей потенциально бесконечной памятью и неограниченным временем вычислений, и нейронными сетями в их нынешнем виде.

Основные тезисы Даггера о теории вычислений:

*   **Память и лента Тьюринга:** Классические компьютеры могли работать с внешними носителями (лентами). Если память заканчивалась, можно было вставить новую ленту, не перепрограммируя и не переобучая машину [5:07]. Нейросети же ограничены архитектурно и не умеют запрашивать «больше памяти» в процессе инференса [7:10].
*   **Эспоненциальный взрыв:** Попытка превратить итеративный алгоритм (требующий машины Тьюринга) в прямой проход через нейронную сеть (foward pass) ведет к экспоненциальному росту размера модели [10:36]. В качестве примера приводится умножение: его можно реализовать маленькой схемой, работающей итеративно, или гигантской схемой, делающей это за один шаг [11:17].
*   **Эффективные вычисления:** Кит определяет рассуждение как «эффективное вычисление в погоне за целью или получением знаний» [14:16]. По его мнению, o1 выполняет лишь подмножество таких вычислений — крайне неглубокое и ограниченное.

## 📚 Механизм o1: Библиотека шаблонов, а не логика
[[JUMP:15:36]]

Тим Скарф предлагает метафору «швейцарского сыра» для описания текущих возможностей ИИ [16:18]. По его мнению, OpenAI не создали систему, которая рассуждает из первых принципов, а лишь натренировали модель на огромном количестве «траекторий рассуждений» (reasoning trajectories), подаренных людьми-учителями [15:50].

Механизм работы o1, по версии участников:

1.  **Сбор данных:** Использовались синтетические данные и работа людей-экспертов, которые описывали пошаговое решение задач (Chain of Thought) [22:45].
2.  **RLHF и фильтрация:** Модель генерировала тысячи вариантов решения, из которых отбирались только те, что привели к правильному ответу. Затем модель дообучалась имитировать эти успешные шаблоны [19:24].
3.  **Поиск по сходству:** При получении нового запроса модель делает своего рода «хэширование по сходству» (locality sensitive hashing), подбирая наиболее близкий шаблон из своей базы [20:27].

Даггер сравнивает это с торговым автоматом в спортзале: автомат выполняет цепочку логических шагов («монета вставлена» -> «выбор сделан» -> «выдача напитка»), но никто не назовет это полноценным рассуждением [15:18]. o1 — это невероятно сложный «торговый автомат», оперирующий не монетами, а статистическими паттернами текста [52:42].

## 🛠 Практический опыт: Кодинг и «коллапс режима»
[[JUMP:32:19]]

Ведущие делятся опытом использования o1 в реальных задачах программирования. Тим Скарф отмечает феномен «mode collapse» (коллапса режима) в модели o1-mini [32:19].

*   **Проблема контекста:** o1-mini очень многословна при первом запросе и выдает отличный код. Однако при попытке продолжить диалог и перейти к смежной задаче, накопленный «скрытый» Chain of Thought начинает мешать модели, и она теряет нить рассуждений [33:21].
*   **Превосходство Claude 3.5 Sonnet:** Для длительных сессий кодинга Тим предпочитает Claude, так как она надежнее удерживает контекст (200k токенов) и не страдает от внутренних конфликтов между «режимом размышления» и «режимом ответа» [33:34].
*   **Золотое правило:** ИИ постоянно нарушает принцип «работает — не трогай». В попытках «улучшить» код модели часто удаляют важные куски логики или документацию, потому что не понимают скрытых предположений программиста [27:01].

## 🧩 Тест на «сообразительность»: Загадка про столп и переключатели
[[JUMP:1:00:46]]

Чтобы проверить, действительно ли o1 способна к логическому выводу, Кит Даггер предложил сложную классическую головоломку [1:01:28]:
> Имеется столп с 4 отверстиями (Север, Юг, Восток, Запад), внутри которых находятся переключатели. Вы можете менять положение максимум двух переключателей за раз. Как только вы вынимаете руки, если не все переключатели в одном положении, столп вращается с огромной скоростью и останавливается в случайном положении (вы не знаете, где теперь Север, а где Юг). Задачу нужно решить гарантированно за 6 шагов, учитывая присутствие «гиперинтеллекта», который будет мешать, если полагаться на удачу.

**Результаты теста:**

*   **o1-preview:** Потратила 57 секунд на «размышления». Предложила неверную стратегию, основанную на простом переключении всех тумблеров вверх по очереди [1:04:31]. Модель не поняла, что вращение обнуляет её знание о расположении переключателей [1:05:53].
*   **o1-mini:** Также провалила тест, предложив аналогичную примитивную стратегию [1:12:12].
*   **GPT-4o:** Единственная модель, которая хотя бы упомянула использование симметрий для решения, но всё равно не смогла выстроить корректный алгоритм [1:12:57].
*   **Claude 3.5 Sonnet:** Несмотря на более сложные рассуждения, также запуталась в итерациях и не выдала правильного ответа [1:15:41].

Этот эксперимент, по мнению Даггера, доказывает, что модели не умеют «воображать временные шаги» и отслеживать причинно-следственные связи в динамически меняющейся системе [1:12:12].

## 💰 Экономика и будущее: Зачем OpenAI всё это?
[[JUMP:59:40]]

Тим Скарф предполагает, что стратегия OpenAI с o1 — это гениальный ход по превращению капитальных затрат (CapEx) в операционные (OpEx) [1:00:07].

*   **Масштабирование во время инференса:** Вместо того чтобы тратить миллиарды на экспоненциальное увеличение параметров модели, OpenAI заставляет пользователя платить за время вычислений (inference compute) [1:00:20].
*   **«Кража» мотивов:** Скарф иронично замечает, что OpenAI фактически «крадет» траектории рассуждений у своих пользователей. Каждый раз, когда человек поправляет модель и направляет её к решению, он создает идеальный обучающий пример для следующей итерации обучения [1:00:20].

В завершение дискуссии собеседники пришли к выводу, что o1 — это полезный инструмент, отлично справляющийся с синтаксисом и структурированием данных, но до настоящего автономного разума, способного решать проблемы вне своей «библиотеки шаблонов», еще очень далеко. Человеческий надзор остается обязательным элементом «симбиоза» человека и ИИ [1:22:02].