Тим и Кит о модели o1: «Это не рассуждение, а имитация»

Рассуждения или имитация: Что на самом деле происходит внутри o1-preview? 0:00

В свежем выпуске подкаста Machine Learning Street Talk (MLST) ведущие Тим и Кит Даггер обсуждают новые модели OpenAI, в частности o1-preview, и пытаются разобраться, можно ли считать «режимы рассуждения» этих моделей настоящим логическим выводом или это лишь искусная имитация. Авторы канала занимают критическую позицию, предлагая смотреть на возможности современных LLM через призму теории вычислимости и практического опыта разработки кода.

Теория вычислений и «ловушка» нейросетей 2:15

Основной тезис Даггера заключается в том, что современное понимание программирования и логики часто игнорирует фундаментальные принципы, заложенные Аланом Тьюрингом.

Тьюринговы машины против конечных автоматов: Даггер подчеркивает, что настоящая мощь вычислений заключается в возможности использования потенциально бесконечной памяти (ленты). В отличие от классических вычислителей, нейронные сети ограничены своей архитектурой.
Проблема масштабирования: По мнению Даггера, многие исследователи совершают ошибку, полагая, что можно просто «сделать нейросеть больше», чтобы решить любую задачу. Он отмечает, что попытка превратить итеративный алгоритм с переменным объемом памяти в один «проход» нейросети неизбежно ведет к экспоненциальному росту размера программы.
Итеративность: Настоящая работа со сложными задачами требует итераций и управления памятью, чему нынешние архитектуры, работающие по принципу статической градиентной оптимизации, обучаются с огромным трудом.

Что такое «рассуждение»? 13:07

Участники дискуссии пытаются определить границы понятия «рассуждение» (reasoning).

Позиция Даггера: Он определяет рассуждение как эффективное вычисление, направленное на достижение цели или вывод знания. Он сравнивает простую модель с торговым автоматом: это «конечный автомат», который не рассуждает, а лишь выполняет набор предопределенных правил.
Критика o1-preview: Тим утверждает, что o1-preview не занимается «рассуждением» в классическом смысле, а использует обширную базу «рациональных траекторий» (rationales), полученных из данных. По сути, модель выполняет поиск по контексту, пытаясь подобрать подходящий шаблон поведения (ad-lib), что иногда приводит к верным ответам, а иногда — к «полной бессмыслице».
Цепочки мыслей (Chain-of-Thought): Оба ведущих сходятся во мнении, что o1-preview использует методы самопромптинга, чтобы имитировать процесс размышления, но эти шаблоны зачастую «подарены» моделью разработчикам в процессе обучения на синтетических данных.

Почему ИИ не может работать в режиме «автопилота» 34:41

Одним из центральных сюжетов выпуска стал эксперимент с решением сложной логической задачи (задача с переключателями в pillar), которую ведущие предложили моделям.

Результаты тестов: Модели, включая o1-preview, продемонстрировали неспособность к последовательному удержанию логики при изменении условий. Они часто «зацикливаются» на неверных стратегиях, просто повторяя одни и те же действия, надеясь на успех.
Необходимость контроля: Ведущие убеждены, что современные LLM — это инструмент для «дидактического обмена знаниями», а не автономный агент. Если человек перестает проверять промежуточные результаты, модель быстро «деградирует» из-за накопления ошибок и потери контекста.
Синергия человека и ИИ: Тим отмечает, что для программиста ИИ полезен не как замена, а как инструмент для анализа огромных массивов кода, где модель может помочь найти исторические причины возникновения «грязных» участков или багов.

Прогнозы и выводы 55:29

Ведущие задаются вопросом: как далеко зайдет «выпуклая оболочка» (convex hull) практического применения ИИ?

Экономика inference: Тим отмечает «гениальный» с точки зрения бизнеса ход OpenAI: они превратили CapEx (капитальные затраты на обучение) в OpEx (операционные затраты), переложив оплату за вычислительную сложность «рассуждений» на пользователей в процессе inference.
Итоговое мнение: Оба участника считают, что, несмотря на маркетинговый хайп вокруг o1-preview, человеческий интеллект остается незаменимым из-за нашей способности к итеративному, долгосрочному анализу и метапознанию. Модели в текущем виде — это лишь «тень» настоящего процесса мышления, которая будет становиться эффективнее за счет «кражи» лучших паттернов рассуждения у самих пользователей.