Ричард Саттон: «Ядро AGI может состоять всего из 10 000 строк кода»

Eye on AI 13,3 тыс. 55 мин 5 мин 22.02.2024
Главное

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с «отцом» обучения с подкреплением Ричардом Саттоном (Richard Sutton). Профессор Университета Альберты и исследователь стартапа Keen Technologies представляет «Альбертский план» (Alberta Plan) — амбициозную пятилетнюю дорожную карту по созданию полноценного AGI через взаимодействие агента с окружающей средой, а также критикует современный подход «сначала язык» в пользу развития фундаментального интеллекта.

📈 Экспоненциальный взрыв вычислений и «Горький урок» 0:00

Ричард Саттон утверждает, что развитие науки и техники сегодня определяется не столько сложностью алгоритмов, сколько доступностью вычислительных мощностей . По его словам, закон Мура, согласно которому мощность компьютеров удваивается каждые 18–24 месяца, действует уже около 100 лет и будет продолжаться в обозримом будущем . Это постоянное удвоение приводит к качественным изменениям в технологиях каждые десять лет .

Основные тезисы Саттона о роли вычислений:

🗺️ Альбертский план: 12 шагов к AGI 8:59

Альбертский план представляет собой исследовательскую программу по созданию воплощенного (embodied) агента, который понимает мир через взаимодействие . Саттон признает, что этот подход концептуально схож с «моделями мира» Яна Лекуна: оба исследователя стремятся создать архитектуру, где агент имеет цель и строит внутреннюю модель среды для планирования действий .

Ключевые принципы плана Саттона:

  1. Непрерывное обучение (Continual Learning): Жизнь агента не делится на фазы обучения и тестирования. Обучение происходит постоянно, симметрично во времени .
  2. Сенсорный ввод вместо «состояния»: Агент не имеет прямого доступа к состоянию мира, он оперирует только сигналами датчиков (зрение, осязание, звук) .
  3. Отсутствие учителя: У агента нет внешних меток или наставников, только сигналы вознаграждения, боли и удовольствия .
  4. Мета-обучение: Процесс улучшения самого процесса обучения на основе накопленного опыта .

Дорожная карта состоит из 12 этапов, начиная с базового обучения с учителем (как простейшего случая для отработки нелинейных сетей) и заканчивая «усилением интеллекта» (Intelligence Augmentation), где ИИ объединяется с человеческим разумом .

🧠 Подход «Язык в последнюю очередь» против LLM 23:31

Ричард Саттон выражает определенный скептицизм в отношении того, что текущий путь развития больших языковых моделей (LLM) приведет к созданию AGI. По мнению Саттона, LLM — это подход «сначала язык» (language first), тогда как истинный интеллект должен развиваться по принципу «язык в последнюю очередь» (language last) .

Его аргументы включают:

По мнению Саттона, успех LLM важен лишь тем, что он показал скептикам возможности обучения на огромных массивах данных с использованием больших вычислений .

🛠️ Технические инновации: Динамические сети и Off-policy обучение 25:36

В данный момент Саттон и его команда находятся примерно на четвертом этапе Альбертского плана . Основное внимание уделяется эффективности алгоритмов обучения вне политики (off-policy learning).

Основные технические концепции, обсуждаемые в интервью:

🤝 Сотрудничество с Джоном Кармаком и Keen Technologies 19:24

Ричард Саттон присоединился к компании Keen Technologies, основанной легендарным разработчиком Джоном Кармаком. Саттон отмечает, что их объединило сходство взглядов на AGI: оба считают, что решение кроется не в написании миллионов строк кода, а в поиске нескольких фундаментальных принципов .

Саттон подчеркивает особенности работы в Keen:

🔮 Будущее ИИ: Виртуальные рабочие и риски 45:11

Саттон считает реалистичной целью достижение понимания принципов работы человеческого разума к 2030 году . Он оценивает вероятность создания ИИ человеческого уровня к этой дате в 25% .

Отношение к угрозам ИИ:

Главной задачей настоящего момента Саттон считает подготовку общества к осознанию того, что мы скоро поймем механизмы работы собственного разума и сможем создавать мыслящие существа .

💬 Цитаты

«Сингулярность — это то, что мы имеем сейчас: этот взрывающийся, медленный взрыв вычислительной мощности.»

Ричард Саттон 06:56

«Язык в последнюю очередь. Мы должны разобраться с интеллектом на уровне крысы или кошки, прежде чем пытаться создать человеческий уровень.»

Ричард Саттон 25:40

«К 2030 году вероятность создания настоящего интеллекта человеческого уровня составляет 25%.»

Ричард Саттон 53:57
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Off-policy learning
Метод обучения с подкреплением, при котором агент учится оптимальному поведению, наблюдая за действиями, которые могут отличаться от его собственной текущей стратегии.
Continual Learning
Способность ИИ постоянно дообучаться на новом потоке данных без потери ранее накопленных знаний.
Meta-learning
Процесс «обучения обучению», когда алгоритм оптимизирует свои собственные параметры обучения в процессе работы.
📊 Цифры
🗓 Хронология
  1. 2019 Публикация эссе Ричарда Саттона «The Bitter Lesson».
  2. 2023 Текущая стадия реализации Альбертского плана (примерно 4-й этап из 12).
  3. 2030 Целевая дата Джона Кармака и Ричарда Саттона для достижения понимания AGI.
⚖️ Другая сторона
Искусственный интеллект Ричард Саттон Reinforcement Learning AGI Keen Technologies Альбертский план