Якоб Фёрстер: «RL на GPU — наш момент ImageNet»

Machine Learning Street Talk 25,6 тыс. 53 мин 3 мин 18.02.2025
Главное

Интеллект как коллективный процесс: как Reinforcement Learning выходит из кризиса 1:09

Глубокое обучение совершило революцию в технологиях, однако глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL) за последнее десятилетие не смогло реализовать свой потенциал и добиться значимого влияния на реальный мир. Профессор Оксфордского университета Якоб Фёрстер (Jakob Foerster) и его коллеги по Foerster Lab for AI Research связывают этот застой с «проигрышем в лотерею оборудования».

По мнению Фёрстера, текущая архитектура DRL фундаментально неэффективна: среды обучения запускаются на центральных процессорах (CPU), а агенты — на графических (GPU), что создает «бутылочное горлышко», замедляющее эксперименты. Исследователи предлагают решение, которое может стать «моментом ImageNet» для RL: перенос всех сред и агентов непосредственно на GPU.

🚀 Технологическая революция: RL на GPU 7:45

Крис, аспирант лаборатории Фёрстера, поясняет, что основной прорыв стал возможен благодаря использованию библиотеки Jax от Google. В отличие от привычного PyTorch, Jax обладает двумя ключевыми особенностями, критичными для масштабирования:

Такой подход дает ускорение экспериментов примерно в 4000 раз. Это позволяет небольшим академическим лабораториям проводить исследования того же масштаба, что и крупные технологические корпорации, а также упрощать алгоритмы, отказываясь от избыточных «целевых сетей» (target networks) и «буферов воспроизведения» (replay buffers).

🤖 Самообучающиеся алгоритмы и «горький урок» 14:32

Дискуссия затрагивает «горький урок» (the bitter lesson) — идею о том, что масштабируемость вычислений важнее изощренной человеческой интуиции. Фёрстер отмечает, что их группа разработала теоретическую базу «зеркального обучения» (Mirror Learning), которая объясняет, почему алгоритмы типа PPO (Proximal Policy Optimization) работают эффективно.

Вместо того чтобы полагаться на спроектированные человеком функции, ученые решили мета-обучить функцию «дрейфа» (drift function). Полученные результаты оказались примечательны:

  1. Подтверждение интуиции: система самостоятельно «переоткрыла» функции, похожие на клиппинг в PPO.
  2. Новые паттерны: система обнаружила механизмы, которые не проектировались людьми, включая стратегию «отката» (rollback) к референсной политике, если преимущество (advantage) оказывается отрицательным.
  3. Автоматизация творчества: исследователи используют LLM как «двигатели творчества» для генерации новых идей и мутации программ в автоматизированном цикле открытий.

🌐 Будущее: Swarm Intelligence и холистическое выравнивание 32:12

Фёрстер высказывает убеждение, что интеллект — это эмерджентное явление, возникающее из взаимодействия множества агентов. Он выступает против идеи «монолитного AGI» (General Artificial Intelligence), считая ее антиутопичной. Вместо этого он предлагает концепцию «роевого интеллекта» (swarm intelligence) — децентрализованной сети автономных агентов.

Ключевым вызовом для человечества, по мнению профессора, является не «выравнивание» (alignment) AI с человеком, а выравнивание интересов тех, кто контролирует системы, с интересами остального населения.

⚖️ Открытый исходный код как фундамент демократии 40:48

Профессор Фёрстер активно защищает необходимость открытого исходного кода (open source) в сфере генеративного AI. Его аргументация строится на нескольких тезисах:

Вместо текущей гонки за «максимизацией прибыли», Фёрстер призывает к созданию международного усилия масштаба CERN для разработки моделей, работающих в интересах общества. Он видит будущее в «холистически выровненных» системах, где каждый человек обладает своим персональным AI-представителем, взаимодействующим внутри сети, что делает невозможным использование технологий против интересов людей.

💬 Цитаты

«Самая большая проблема согласования (alignment) — не между AI и людьми, а между теми, кто держит ключи от власти, и остальным населением.»

Якоб Фёрстер 0:27

«Multi-agent learning был будущим вечно. Но, как и во многих областях, вещи, которые были «будущим» вечно, внезапно становятся реальностью.»

Якоб Фёрстер 39:49

«Если я создаю молоток, я не должен сидеть в тюрьме, если плохой человек возьмет его и нанесет ущерб.»

Якоб Фёрстер 51:15
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RL (Reinforcement Learning)
Обучение с подкреплением — метод машинного обучения, где агент учится принимать решения, получая награду или наказание за свои действия.
Jax
Библиотека от Google для высокопроизводительных численных вычислений, предназначенная для обучения нейронных сетей на GPU/TPU.
JIT-компиляция
Технология компиляции кода «на лету» во время исполнения программы для ускорения ее работы.
Векторизация
Способ обработки данных, при котором одна операция применяется ко всему вектору или матрице чисел одновременно, а не по отдельности.
Goodhart’s Law
Принцип, согласно которому, когда мера становится целью, она перестает быть хорошей мерой.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Jakob Foerster Reinforcement Learning Jax Open Source AI AGI