Ричард Саттон: «Ядро AGI может состоять всего из 10 000 строк кода»

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с «отцом» обучения с подкреплением Ричардом Саттоном (Richard Sutton). Профессор Университета Альберты и исследователь стартапа Keen Technologies представляет «Альбертский план» (Alberta Plan) — амбициозную пятилетнюю дорожную карту по созданию полноценного AGI через взаимодействие агента с окружающей средой, а также критикует современный подход «сначала язык» в пользу развития фундаментального интеллекта.

📈 Экспоненциальный взрыв вычислений и «Горький урок» 0:00

Ричард Саттон утверждает, что развитие науки и техники сегодня определяется не столько сложностью алгоритмов, сколько доступностью вычислительных мощностей . По его словам, закон Мура, согласно которому мощность компьютеров удваивается каждые 18–24 месяца, действует уже около 100 лет и будет продолжаться в обозримом будущем . Это постоянное удвоение приводит к качественным изменениям в технологиях каждые десять лет .

Основные тезисы Саттона о роли вычислений:

Сингулярность как процесс: Саттон определяет технологическую сингулярность не как мгновенное событие, а как «медленный взрыв» вычислительной мощности, который фундаментально меняет мир .
Приоритет масштабирования: В своем эссе 2019 года «Bitter Lesson» («Горький урок») исследователь отметил, что методы, использующие чистую вычислительную мощь (поиск и обучение), всегда побеждают подходы, основанные на человеческих знаниях .
Случайность архитектур: Ссылаясь на беседу с Эйденом Гомесом (соавтором статьи о трансформерах), ведущий отмечает, что успех архитектуры Transformer может быть связан не с её уникальностью, а с тем, что сообщество решило масштабировать именно её. Саттон соглашается, что многие методы обучения (Reinforcement Learning, нейронные сети) исторически были ограничены лишь доступным «железом» своего времени .

🗺️ Альбертский план: 12 шагов к AGI 8:59

Альбертский план представляет собой исследовательскую программу по созданию воплощенного (embodied) агента, который понимает мир через взаимодействие . Саттон признает, что этот подход концептуально схож с «моделями мира» Яна Лекуна: оба исследователя стремятся создать архитектуру, где агент имеет цель и строит внутреннюю модель среды для планирования действий .

Ключевые принципы плана Саттона:

Непрерывное обучение (Continual Learning): Жизнь агента не делится на фазы обучения и тестирования. Обучение происходит постоянно, симметрично во времени .
Сенсорный ввод вместо «состояния»: Агент не имеет прямого доступа к состоянию мира, он оперирует только сигналами датчиков (зрение, осязание, звук) .
Отсутствие учителя: У агента нет внешних меток или наставников, только сигналы вознаграждения, боли и удовольствия .
Мета-обучение: Процесс улучшения самого процесса обучения на основе накопленного опыта .

Дорожная карта состоит из 12 этапов, начиная с базового обучения с учителем (как простейшего случая для отработки нелинейных сетей) и заканчивая «усилением интеллекта» (Intelligence Augmentation), где ИИ объединяется с человеческим разумом .

🧠 Подход «Язык в последнюю очередь» против LLM 23:31

Ричард Саттон выражает определенный скептицизм в отношении того, что текущий путь развития больших языковых моделей (LLM) приведет к созданию AGI. По мнению Саттона, LLM — это подход «сначала язык» (language first), тогда как истинный интеллект должен развиваться по принципу «язык в последнюю очередь» (language last) .

Его аргументы включают:

Отсутствие целей и понимания истины: В текущих LLM отсутствуют механизмы понимания того, что истинно, а что ложно, а также способность агента преследовать собственные цели .
Биологическая аналогия: Саттон поддерживает мнение Яна Лекуна о том, что сначала нужно достичь уровня интеллекта крысы или кошки, прежде чем переходить к человеческому уровню .
Иллюзия знаний: Пример с ребенком и слоном показывает, что ребенок уже имеет развитые концепции объектов и пространства к моменту, когда узнает слово «слон». Вербальная метка — это самая неинтересная часть процесса обучения .

По мнению Саттона, успех LLM важен лишь тем, что он показал скептикам возможности обучения на огромных массивах данных с использованием больших вычислений .

🛠️ Технические инновации: Динамические сети и Off-policy обучение 25:36

В данный момент Саттон и его команда находятся примерно на четвертом этапе Альбертского плана . Основное внимание уделяется эффективности алгоритмов обучения вне политики (off-policy learning).

Основные технические концепции, обсуждаемые в интервью:

Динамические обучающиеся сети (Dynamic Learning Nets): В отличие от обычных нейросетей, где обучаются только веса, Саттон предлагает адаптировать три уровня: веса, размеры шагов (learning rates) и саму структуру соединений .
Мета-градиенты: Использование мета-обучения для автоматической настройки скорости обучения каждого отдельного веса в сети .
Органический рост: Сеть должна сама инициировать создание новых признаков (features), когда видит, что не может аппроксимировать нелинейную функцию доступными средствами .
Архитектура Horde: Концепция разума как децентрализованной системы «демонов», где каждый работает над своей подзадачей (прогнозированием или достижением промежуточной цели), обучаясь параллельно на общем потоке данных .

🤝 Сотрудничество с Джоном Кармаком и Keen Technologies 19:24

Ричард Саттон присоединился к компании Keen Technologies, основанной легендарным разработчиком Джоном Кармаком. Саттон отмечает, что их объединило сходство взглядов на AGI: оба считают, что решение кроется не в написании миллионов строк кода, а в поиске нескольких фундаментальных принципов .

Саттон подчеркивает особенности работы в Keen:

Философия кода: По мнению Кармака и Саттона, ядро AGI может состоять всего из 10 000 строк кода, а не из 10 миллионов .
Финансирование: Keen Technologies — это компания с капиталом около 20 миллионов долларов, что, по словам Саттона, достаточно для текущих исследовательских нужд, в отличие от гигантских корпораций вроде Meta .
Спокойная среда: В компании ценится возможность вдумчивого созерцания и тщательной проработки идей без давления необходимости немедленного выпуска продукта .

🔮 Будущее ИИ: Виртуальные рабочие и риски 45:11

Саттон считает реалистичной целью достижение понимания принципов работы человеческого разума к 2030 году . Он оценивает вероятность создания ИИ человеческого уровня к этой дате в 25% .

Отношение к угрозам ИИ:

Критика «думеров»: Саттон называет сторонников теории экзистенциального риска ИИ «ослепленными предвзятостью» . По его мнению, ИИ — это технология широкого применения, как электричество, а не оружие массового поражения .
Отсутствие аргументов: Гость утверждает, что «проповедники конца света» не приводят логически связных аргументов в пользу того, что ИИ обязательно захочет уничтожить человечество .
Экономическая польза: Одной из первых ступеней использования AGI Саттон видит создание «виртуальных рабочих», способных выполнять офисные задачи через видеоинтерфейс, что даст колоссальный экономический эффект .

Главной задачей настоящего момента Саттон считает подготовку общества к осознанию того, что мы скоро поймем механизмы работы собственного разума и сможем создавать мыслящие существа .