# Ричард Саттон: «Ядро AGI может состоять всего из 10 000 строк кода»

Источник: https://www.youtube.com/watch?v=zZuh8YUBeDY
Канал: Eye on AI
Опубликовано: 22.02.2024

---

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с «отцом» обучения с подкреплением Ричардом Саттоном (Richard Sutton). Профессор Университета Альберты и исследователь стартапа Keen Technologies представляет «Альбертский план» (Alberta Plan) — амбициозную пятилетнюю дорожную карту по созданию полноценного AGI через взаимодействие агента с окружающей средой, а также критикует современный подход «сначала язык» в пользу развития фундаментального интеллекта.

## 📈 Экспоненциальный взрыв вычислений и «Горький урок»
[[JUMP:00:00]]

Ричард Саттон утверждает, что развитие науки и техники сегодня определяется не столько сложностью алгоритмов, сколько доступностью вычислительных мощностей [00:12]. По его словам, закон Мура, согласно которому мощность компьютеров удваивается каждые 18–24 месяца, действует уже около 100 лет и будет продолжаться в обозримом будущем [05:49]. Это постоянное удвоение приводит к качественным изменениям в технологиях каждые десять лет [06:02].

Основные тезисы Саттона о роли вычислений:

*   **Сингулярность как процесс:** Саттон определяет технологическую сингулярность не как мгновенное событие, а как «медленный взрыв» вычислительной мощности, который фундаментально меняет мир [06:56].
*   **Приоритет масштабирования:** В своем эссе 2019 года «Bitter Lesson» («Горький урок») исследователь отметил, что методы, использующие чистую вычислительную мощь (поиск и обучение), всегда побеждают подходы, основанные на человеческих знаниях [03:25].
*   **Случайность архитектур:** Ссылаясь на беседу с Эйденом Гомесом (соавтором статьи о трансформерах), ведущий отмечает, что успех архитектуры Transformer может быть связан не с её уникальностью, а с тем, что сообщество решило масштабировать именно её. Саттон соглашается, что многие методы обучения (Reinforcement Learning, нейронные сети) исторически были ограничены лишь доступным «железом» своего времени [05:23].

## 🗺️ Альбертский план: 12 шагов к AGI
[[JUMP:08:59]]

Альбертский план представляет собой исследовательскую программу по созданию воплощенного (embodied) агента, который понимает мир через взаимодействие [09:11]. Саттон признает, что этот подход концептуально схож с «моделями мира» Яна Лекуна: оба исследователя стремятся создать архитектуру, где агент имеет цель и строит внутреннюю модель среды для планирования действий [09:50].

Ключевые принципы плана Саттона:

1.  **Непрерывное обучение (Continual Learning):** Жизнь агента не делится на фазы обучения и тестирования. Обучение происходит постоянно, симметрично во времени [14:16].
2.  **Сенсорный ввод вместо «состояния»:** Агент не имеет прямого доступа к состоянию мира, он оперирует только сигналами датчиков (зрение, осязание, звук) [13:50].
3.  **Отсутствие учителя:** У агента нет внешних меток или наставников, только сигналы вознаграждения, боли и удовольствия [14:41].
4.  **Мета-обучение:** Процесс улучшения самого процесса обучения на основе накопленного опыта [15:21].

Дорожная карта состоит из 12 этапов, начиная с базового обучения с учителем (как простейшего случая для отработки нелинейных сетей) и заканчивая «усилением интеллекта» (Intelligence Augmentation), где ИИ объединяется с человеческим разумом [16:54].

## 🧠 Подход «Язык в последнюю очередь» против LLM
[[JUMP:23:31]]

Ричард Саттон выражает определенный скептицизм в отношении того, что текущий путь развития больших языковых моделей (LLM) приведет к созданию AGI. По мнению Саттона, LLM — это подход «сначала язык» (language first), тогда как истинный интеллект должен развиваться по принципу «язык в последнюю очередь» (language last) [25:40].

Его аргументы включают:

*   **Отсутствие целей и понимания истины:** В текущих LLM отсутствуют механизмы понимания того, что истинно, а что ложно, а также способность агента преследовать собственные цели [24:30].
*   **Биологическая аналогия:** Саттон поддерживает мнение Яна Лекуна о том, что сначала нужно достичь уровня интеллекта крысы или кошки, прежде чем переходить к человеческому уровню [25:53]. 
*   **Иллюзия знаний:** Пример с ребенком и слоном показывает, что ребенок уже имеет развитые концепции объектов и пространства к моменту, когда узнает слово «слон». Вербальная метка — это самая неинтересная часть процесса обучения [49:15].

По мнению Саттона, успех LLM важен лишь тем, что он показал скептикам возможности обучения на огромных массивах данных с использованием больших вычислений [24:43].

## 🛠️ Технические инновации: Динамические сети и Off-policy обучение
[[JUMP:25:36]]

В данный момент Саттон и его команда находятся примерно на четвертом этапе Альбертского плана [27:01]. Основное внимание уделяется эффективности алгоритмов обучения вне политики (off-policy learning).

Основные технические концепции, обсуждаемые в интервью:

*   **Динамические обучающиеся сети (Dynamic Learning Nets):** В отличие от обычных нейросетей, где обучаются только веса, Саттон предлагает адаптировать три уровня: веса, размеры шагов (learning rates) и саму структуру соединений [29:31].
*   **Мета-градиенты:** Использование мета-обучения для автоматической настройки скорости обучения каждого отдельного веса в сети [30:10].
*   **Органический рост:** Сеть должна сама инициировать создание новых признаков (features), когда видит, что не может аппроксимировать нелинейную функцию доступными средствами [31:08].
*   **Архитектура Horde:** Концепция разума как децентрализованной системы «демонов», где каждый работает над своей подзадачей (прогнозированием или достижением промежуточной цели), обучаясь параллельно на общем потоке данных [18:55].

## 🤝 Сотрудничество с Джоном Кармаком и Keen Technologies
[[JUMP:19:24]]

Ричард Саттон присоединился к компании Keen Technologies, основанной легендарным разработчиком Джоном Кармаком. Саттон отмечает, что их объединило сходство взглядов на AGI: оба считают, что решение кроется не в написании миллионов строк кода, а в поиске нескольких фундаментальных принципов [20:30].

Саттон подчеркивает особенности работы в Keen:

*   **Философия кода:** По мнению Кармака и Саттона, ядро AGI может состоять всего из 10 000 строк кода, а не из 10 миллионов [20:30].
*   **Финансирование:** Keen Technologies — это компания с капиталом около 20 миллионов долларов, что, по словам Саттона, достаточно для текущих исследовательских нужд, в отличие от гигантских корпораций вроде Meta [19:48].
*   **Спокойная среда:** В компании ценится возможность вдумчивого созерцания и тщательной проработки идей без давления необходимости немедленного выпуска продукта [21:10].

## 🔮 Будущее ИИ: Виртуальные рабочие и риски
[[JUMP:45:11]]

Саттон считает реалистичной целью достижение понимания принципов работы человеческого разума к 2030 году [53:44]. Он оценивает вероятность создания ИИ человеческого уровня к этой дате в 25% [53:57].

Отношение к угрозам ИИ:

*   **Критика «думеров»:** Саттон называет сторонников теории экзистенциального риска ИИ «ослепленными предвзятостью» [51:40]. По его мнению, ИИ — это технология широкого применения, как электричество, а не оружие массового поражения [51:53].
*   **Отсутствие аргументов:** Гость утверждает, что «проповедники конца света» не приводят логически связных аргументов в пользу того, что ИИ обязательно захочет уничтожить человечество [52:33].
*   **Экономическая польза:** Одной из первых ступеней использования AGI Саттон видит создание «виртуальных рабочих», способных выполнять офисные задачи через видеоинтерфейс, что даст колоссальный экономический эффект [46:24].

Главной задачей настоящего момента Саттон считает подготовку общества к осознанию того, что мы скоро поймем механизмы работы собственного разума и сможем создавать мыслящие существа [54:36].