Боб Макгрю: «Код рассуждений взломан, на очереди — агенты и роботы»

Бывший технический директор OpenAI Боб Макгрю (Bob McGrew) в интервью Y Combinator раскрывает внутреннюю кухню создания самых мощных ИИ-моделей современности. Он анализирует путь от первых экспериментов с роборуками до прорыва моделей рассуждения ($o1$, $o3$) и объясняет, почему следующая революция произойдет не в чат-ботах, а в автономных агентах и робототехнике.

🚀 От сборки кубика Рубика до GPT: как OpenAI сделала ставку на масштаб 2:02

В начале пути OpenAI целью было создание AGI, но стратегия достижения этой цели была, по признанию Боба Макгрю, «плохой теорией». Ранняя команда, состоящая из выходцев из стартап-среды (Сэм Альтман, Грег Брокман), чувствовала себя неуютно в академическом формате написания статей.

Первые значимые инсайты были получены в проектах, далеких от текста:

Роботизированная рука: Целью было научить её собирать кубик Рубика в сложных условиях, чтобы ИИ научился обобщать навыки за пределами узкой задачи.
Dota 2: Соревнование в сложной видеоигре укрепило веру команды в то, что масштабирование (scale) — это и есть путь к улучшению интеллекта. Оказалось, что нейронная сеть может обучаться и обобщать знания, поглощая огромные объемы игрового опыта.

Параллельно Алек Рэдфорд (Alec Radford) работал над GPT-1. Боб Макгрю отмечает, что в то время идея предсказания следующего токена как основы интеллекта казалась неочевидной, и Алеку пришлось упорствовать годами, чтобы доказать её жизнеспособность. Сочетание архитектуры трансформеров Алека и принципов масштабирования из DOTA привело к созданию GPT-2, GPT-3 и GPT-4.

🧠 Культурный код: OpenAI против Google Brain и DeepMind 5:04

Боб Макгрю сравнивает подходы ведущих ИИ-лабораторий, выделяя три разные философии:

DeepMind: Централизованный план Демиса Хассабиса, где исследователи нанимались под конкретную стратегию.
Google Brain: Академическая среда, где талантливым ученым давали неограниченные ресурсы и полную свободу в надежде на случайные прорывы.
OpenAI: Подход стартапа. Не было жесткого централизованного плана, но было четкое «мнение» руководства (Ильи Суцкевера, Дарио Амодеи) о том, что нужно доказывать эффективность масштабирования.

Особое внимание уделялось борьбе с «одержимостью авторством», характерной для академии. Чтобы избежать конфликтов за место в списке авторов, в ранних работах по робототехнике авторы указывались просто как «OpenAI». Долгое время в компании практически не было официальных титулов, кроме CEO.

🧱 Тупик данных и новая S-кривая: эпоха рассуждений ($o1$ и $o3$) 9:14

По мнению Боба Макгрю, прогресс ИИ сейчас сталкивается с «ценой данных» (data wall). Традиционное масштабирование путем простого увеличения корпусов текстов для обучения достигает своих пределов.

Однако гость утверждает, что закон Мура в ИИ продолжается через смену механизмов. На смену простому пре-трейнингу приходят рассуждения (reasoning) и вычисления во время инференса (test-time compute).

Ключевые тезисы о новом этапе:

Логический прорыв: Модели $o1$ и $o3$ от OpenAI, а также Gemini Flash Thinking, позволяют модели «думать» дольше перед выдачей ответа.
Путь к AGI: Боб Макгрю считает, что последние пять лет индустрия была сосредоточена на пре-трейнинге, а теперь «код рассуждений» взломан, и перед нами чистый путь к масштабированию логических способностей.
Уровни AGI: Собеседники сошлись во мнении, что индустрия движется по пяти уровням развития AGI. Сейчас мы находимся на уровне «рассуждателей» (reasoners) и приближаемся к «инноваторам».

🤖 Автономные агенты: от 90% до 99.9% надежности 14:44

Рассуждения — это не просто умение решать задачи, это фундамент для создания агентов. По словам Боба Макгрю, «длинное мышление» позволяет модели строить связные цепочки действий в реальном или виртуальном мире.

Главный барьер для внедрения агентов — надежность. Гость приводит эмпирическое правило: для добавления каждой «девятки» к показателю точности (с 90% до 99% или с 99% до 99.9%) требуется увеличение вычислительной мощности на порядок. Раньше это достигалось только обучением более крупных моделей, теперь — за счет того, что модель дольше «думает» над задачей.

Боб Макгрю прогнозирует появление глубоко персонализированных ИИ-ботов, которые будут иметь доступ к Slack, Gmail и другим инструментам сотрудника, чтобы действовать от его имени.

🛠 Почему ИИ-революция буксует и при чем здесь Palantir 20:40

Собеседники обсуждают парадокс: несмотря на то, что современные ИИ-модели уже в 2018 году казались «концом истории» для многих профессий, массового замещения рабочих мест не произошло. Боб Макгрю связывает это с отсутствием нужного софта и интерфейсов.

Решением может стать концепция «Forward Deployed Engineer» (инженер передового развертывания), которую практиковала компания Palantir.

Это инженер, который сидит в офисе клиента, изучает его workflow и на месте создает идеальный инструмент.
Боб Макгрю полагает, что для интеграции ИИ в бизнес нужно не «коробочное ПО», а армия инженеров, способных связать интеллект модели с конкретными задачами пользователя.

🎨 Будущее: Genius, Manager и «ChatGPT момент» для роботов 24:49

Боб Макгрю сохраняет оптимизм относительно будущего труда. Он сравнивает текущую ситуацию с автоматизацией сельского хозяйства в 1880-х годах: тогда 90% рабочих мест исчезло, но появились профессии, которые фермеры того времени даже не смогли бы вообразить.

По мнению спикера, в будущем останутся две основные роли для человека:

Одинокий гений (Lone Genius): Исследователь, который использует ИИ как рычаг для реализации невероятных идей.
Менеджер: Руководитель «фирмы», состоящей преимущественно из ИИ-агентов.

Что касается робототехники, Макгрю считает, что она находится в той же точке, где LLM были 5 лет назад. Он предсказывает, что в ближайшие 5 лет мы увидим «ChatGPT момент» для роботов благодаря созданию фундаментальных моделей физического интеллекта. Это позволит автоматизировать не только цифровой труд, но и проведение научных экспериментов в физических лабораториях.