Тим Скарф и Кит Даггер: «Модель o1 — это библиотека шаблонов, а не разум»

Machine Learning Street Talk 47,7 тыс. 1 ч 24 мин 4 мин 15.09.2024
Главное

В новом эпизоде подкаста Machine Learning Street Talk (MLST) ведущий Тим Скарф (Tim Scarfe) и его соведущий Кит Даггер (Keith Dugger) подвергают критическому анализу последние достижения OpenAI — модели серии o1-preview и o1-mini. Основной темой дискуссии стало разграничение между тем, что маркетологи называют «рассуждением» (reasoning), и тем, что на самом деле происходит под капотом нейросетевых архитектур в контексте теории вычислений.

🧠 Природа рассуждений: Тьюринг против нейросетей 2:15

Кит Даггер утверждает, что понимание разницы между классами вычислений находится на «когнитивном горизонте» большинства людей, включая специалистов . Он подчеркивает фундаментальное различие между машиной Тьюринга, обладающей потенциально бесконечной памятью и неограниченным временем вычислений, и нейронными сетями в их нынешнем виде.

Основные тезисы Даггера о теории вычислений:

📚 Механизм o1: Библиотека шаблонов, а не логика 15:36

Тим Скарф предлагает метафору «швейцарского сыра» для описания текущих возможностей ИИ . По его мнению, OpenAI не создали систему, которая рассуждает из первых принципов, а лишь натренировали модель на огромном количестве «траекторий рассуждений» (reasoning trajectories), подаренных людьми-учителями .

Механизм работы o1, по версии участников:

  1. Сбор данных: Использовались синтетические данные и работа людей-экспертов, которые описывали пошаговое решение задач (Chain of Thought) .
  2. RLHF и фильтрация: Модель генерировала тысячи вариантов решения, из которых отбирались только те, что привели к правильному ответу. Затем модель дообучалась имитировать эти успешные шаблоны .
  3. Поиск по сходству: При получении нового запроса модель делает своего рода «хэширование по сходству» (locality sensitive hashing), подбирая наиболее близкий шаблон из своей базы .

Даггер сравнивает это с торговым автоматом в спортзале: автомат выполняет цепочку логических шагов («монета вставлена» -> «выбор сделан» -> «выдача напитка»), но никто не назовет это полноценным рассуждением . o1 — это невероятно сложный «торговый автомат», оперирующий не монетами, а статистическими паттернами текста .

🛠 Практический опыт: Кодинг и «коллапс режима» 32:19

Ведущие делятся опытом использования o1 в реальных задачах программирования. Тим Скарф отмечает феномен «mode collapse» (коллапса режима) в модели o1-mini .

🧩 Тест на «сообразительность»: Загадка про столп и переключатели 1:00:46

Чтобы проверить, действительно ли o1 способна к логическому выводу, Кит Даггер предложил сложную классическую головоломку :

Имеется столп с 4 отверстиями (Север, Юг, Восток, Запад), внутри которых находятся переключатели. Вы можете менять положение максимум двух переключателей за раз. Как только вы вынимаете руки, если не все переключатели в одном положении, столп вращается с огромной скоростью и останавливается в случайном положении (вы не знаете, где теперь Север, а где Юг). Задачу нужно решить гарантированно за 6 шагов, учитывая присутствие «гиперинтеллекта», который будет мешать, если полагаться на удачу.

Результаты теста:

Этот эксперимент, по мнению Даггера, доказывает, что модели не умеют «воображать временные шаги» и отслеживать причинно-следственные связи в динамически меняющейся системе .

💰 Экономика и будущее: Зачем OpenAI всё это? 59:40

Тим Скарф предполагает, что стратегия OpenAI с o1 — это гениальный ход по превращению капитальных затрат (CapEx) в операционные (OpEx) .

В завершение дискуссии собеседники пришли к выводу, что o1 — это полезный инструмент, отлично справляющийся с синтаксисом и структурированием данных, но до настоящего автономного разума, способного решать проблемы вне своей «библиотеки шаблонов», еще очень далеко. Человеческий надзор остается обязательным элементом «симбиоза» человека и ИИ .

💬 Цитаты

«Модель — это отражение пользователя. Если вы играете в умные шахматы, модель будет играть как умный игрок. Если вы пишете дерьмовый код, модель будет тупой.»

Тим Скарф 00:00

«Мы не знаем, как обучать алгоритмы, которые умеют использовать потенциально бесконечный объем памяти.»

Кит Даггер 07:24

«Рассуждение — это эффективное вычисление в погоне за целью. Содовый автомат в спортзале — это тоже вычисление, но мы не называем это разумом.»

Кит Даггер 14:16
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Chain of Thought
Метод побуждения модели ИИ к пошаговому изложению хода своих мыслей перед выдачей ответа.
Машина Тьюринга
Абстрактная вычислительная модель, способная имитировать любой алгоритм при наличии достаточного времени и памяти.
Inference time compute
Вычислительные ресурсы, затрачиваемые моделью непосредственно в момент генерации ответа пользователю.
Locality sensitive hashing
Метод эффективного поиска похожих объектов в больших наборах данных.
Mode collapse
Состояние модели, при котором она зацикливается или теряет способность адекватно отвечать в одном из своих режимов работы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект OpenAI o1-preview Chain of Thought теория вычислений машина Тьюринга