В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с «отцом» обучения с подкреплением Ричардом Саттоном (Richard Sutton). Профессор Университета Альберты и исследователь стартапа Keen Technologies представляет «Альбертский план» (Alberta Plan) — амбициозную пятилетнюю дорожную карту по созданию полноценного AGI через взаимодействие агента с окружающей средой, а также критикует современный подход «сначала язык» в пользу развития фундаментального интеллекта.
📈 Экспоненциальный взрыв вычислений и «Горький урок» 0:00
Ричард Саттон утверждает, что развитие науки и техники сегодня определяется не столько сложностью алгоритмов, сколько доступностью вычислительных мощностей . По его словам, закон Мура, согласно которому мощность компьютеров удваивается каждые 18–24 месяца, действует уже около 100 лет и будет продолжаться в обозримом будущем . Это постоянное удвоение приводит к качественным изменениям в технологиях каждые десять лет .
Основные тезисы Саттона о роли вычислений:
- Сингулярность как процесс: Саттон определяет технологическую сингулярность не как мгновенное событие, а как «медленный взрыв» вычислительной мощности, который фундаментально меняет мир .
- Приоритет масштабирования: В своем эссе 2019 года «Bitter Lesson» («Горький урок») исследователь отметил, что методы, использующие чистую вычислительную мощь (поиск и обучение), всегда побеждают подходы, основанные на человеческих знаниях .
- Случайность архитектур: Ссылаясь на беседу с Эйденом Гомесом (соавтором статьи о трансформерах), ведущий отмечает, что успех архитектуры Transformer может быть связан не с её уникальностью, а с тем, что сообщество решило масштабировать именно её. Саттон соглашается, что многие методы обучения (Reinforcement Learning, нейронные сети) исторически были ограничены лишь доступным «железом» своего времени .
🗺️ Альбертский план: 12 шагов к AGI 8:59
Альбертский план представляет собой исследовательскую программу по созданию воплощенного (embodied) агента, который понимает мир через взаимодействие . Саттон признает, что этот подход концептуально схож с «моделями мира» Яна Лекуна: оба исследователя стремятся создать архитектуру, где агент имеет цель и строит внутреннюю модель среды для планирования действий .
Ключевые принципы плана Саттона:
- Непрерывное обучение (Continual Learning): Жизнь агента не делится на фазы обучения и тестирования. Обучение происходит постоянно, симметрично во времени .
- Сенсорный ввод вместо «состояния»: Агент не имеет прямого доступа к состоянию мира, он оперирует только сигналами датчиков (зрение, осязание, звук) .
- Отсутствие учителя: У агента нет внешних меток или наставников, только сигналы вознаграждения, боли и удовольствия .
- Мета-обучение: Процесс улучшения самого процесса обучения на основе накопленного опыта .
Дорожная карта состоит из 12 этапов, начиная с базового обучения с учителем (как простейшего случая для отработки нелинейных сетей) и заканчивая «усилением интеллекта» (Intelligence Augmentation), где ИИ объединяется с человеческим разумом .
🧠 Подход «Язык в последнюю очередь» против LLM 23:31
Ричард Саттон выражает определенный скептицизм в отношении того, что текущий путь развития больших языковых моделей (LLM) приведет к созданию AGI. По мнению Саттона, LLM — это подход «сначала язык» (language first), тогда как истинный интеллект должен развиваться по принципу «язык в последнюю очередь» (language last) .
Его аргументы включают:
- Отсутствие целей и понимания истины: В текущих LLM отсутствуют механизмы понимания того, что истинно, а что ложно, а также способность агента преследовать собственные цели .
- Биологическая аналогия: Саттон поддерживает мнение Яна Лекуна о том, что сначала нужно достичь уровня интеллекта крысы или кошки, прежде чем переходить к человеческому уровню .
- Иллюзия знаний: Пример с ребенком и слоном показывает, что ребенок уже имеет развитые концепции объектов и пространства к моменту, когда узнает слово «слон». Вербальная метка — это самая неинтересная часть процесса обучения .
По мнению Саттона, успех LLM важен лишь тем, что он показал скептикам возможности обучения на огромных массивах данных с использованием больших вычислений .
🛠️ Технические инновации: Динамические сети и Off-policy обучение 25:36
В данный момент Саттон и его команда находятся примерно на четвертом этапе Альбертского плана . Основное внимание уделяется эффективности алгоритмов обучения вне политики (off-policy learning).
Основные технические концепции, обсуждаемые в интервью:
- Динамические обучающиеся сети (Dynamic Learning Nets): В отличие от обычных нейросетей, где обучаются только веса, Саттон предлагает адаптировать три уровня: веса, размеры шагов (learning rates) и саму структуру соединений .
- Мета-градиенты: Использование мета-обучения для автоматической настройки скорости обучения каждого отдельного веса в сети .
- Органический рост: Сеть должна сама инициировать создание новых признаков (features), когда видит, что не может аппроксимировать нелинейную функцию доступными средствами .
- Архитектура Horde: Концепция разума как децентрализованной системы «демонов», где каждый работает над своей подзадачей (прогнозированием или достижением промежуточной цели), обучаясь параллельно на общем потоке данных .
🤝 Сотрудничество с Джоном Кармаком и Keen Technologies 19:24
Ричард Саттон присоединился к компании Keen Technologies, основанной легендарным разработчиком Джоном Кармаком. Саттон отмечает, что их объединило сходство взглядов на AGI: оба считают, что решение кроется не в написании миллионов строк кода, а в поиске нескольких фундаментальных принципов .
Саттон подчеркивает особенности работы в Keen:
- Философия кода: По мнению Кармака и Саттона, ядро AGI может состоять всего из 10 000 строк кода, а не из 10 миллионов .
- Финансирование: Keen Technologies — это компания с капиталом около 20 миллионов долларов, что, по словам Саттона, достаточно для текущих исследовательских нужд, в отличие от гигантских корпораций вроде Meta .
- Спокойная среда: В компании ценится возможность вдумчивого созерцания и тщательной проработки идей без давления необходимости немедленного выпуска продукта .
🔮 Будущее ИИ: Виртуальные рабочие и риски 45:11
Саттон считает реалистичной целью достижение понимания принципов работы человеческого разума к 2030 году . Он оценивает вероятность создания ИИ человеческого уровня к этой дате в 25% .
Отношение к угрозам ИИ:
- Критика «думеров»: Саттон называет сторонников теории экзистенциального риска ИИ «ослепленными предвзятостью» . По его мнению, ИИ — это технология широкого применения, как электричество, а не оружие массового поражения .
- Отсутствие аргументов: Гость утверждает, что «проповедники конца света» не приводят логически связных аргументов в пользу того, что ИИ обязательно захочет уничтожить человечество .
- Экономическая польза: Одной из первых ступеней использования AGI Саттон видит создание «виртуальных рабочих», способных выполнять офисные задачи через видеоинтерфейс, что даст колоссальный экономический эффект .
Главной задачей настоящего момента Саттон считает подготовку общества к осознанию того, что мы скоро поймем механизмы работы собственного разума и сможем создавать мыслящие существа .