Якоб Фёрстер: «RL на GPU — наш момент ImageNet»

Интеллект как коллективный процесс: как Reinforcement Learning выходит из кризиса 1:09

Глубокое обучение совершило революцию в технологиях, однако глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL) за последнее десятилетие не смогло реализовать свой потенциал и добиться значимого влияния на реальный мир. Профессор Оксфордского университета Якоб Фёрстер (Jakob Foerster) и его коллеги по Foerster Lab for AI Research связывают этот застой с «проигрышем в лотерею оборудования».

По мнению Фёрстера, текущая архитектура DRL фундаментально неэффективна: среды обучения запускаются на центральных процессорах (CPU), а агенты — на графических (GPU), что создает «бутылочное горлышко», замедляющее эксперименты. Исследователи предлагают решение, которое может стать «моментом ImageNet» для RL: перенос всех сред и агентов непосредственно на GPU.

🚀 Технологическая революция: RL на GPU 7:45

Крис, аспирант лаборатории Фёрстера, поясняет, что основной прорыв стал возможен благодаря использованию библиотеки Jax от Google. В отличие от привычного PyTorch, Jax обладает двумя ключевыми особенностями, критичными для масштабирования:

JIT-компиляция (jit): позволяет компилировать программы прямо на GPU, обеспечивая высокую скорость выполнения.
Векторизация (vmap): функция, позволяющая запускать миллионы экземпляров одной и той же среды одновременно, превращая скалярные операции в векторные или матричные.

Такой подход дает ускорение экспериментов примерно в 4000 раз. Это позволяет небольшим академическим лабораториям проводить исследования того же масштаба, что и крупные технологические корпорации, а также упрощать алгоритмы, отказываясь от избыточных «целевых сетей» (target networks) и «буферов воспроизведения» (replay buffers).

🤖 Самообучающиеся алгоритмы и «горький урок» 14:32

Дискуссия затрагивает «горький урок» (the bitter lesson) — идею о том, что масштабируемость вычислений важнее изощренной человеческой интуиции. Фёрстер отмечает, что их группа разработала теоретическую базу «зеркального обучения» (Mirror Learning), которая объясняет, почему алгоритмы типа PPO (Proximal Policy Optimization) работают эффективно.

Вместо того чтобы полагаться на спроектированные человеком функции, ученые решили мета-обучить функцию «дрейфа» (drift function). Полученные результаты оказались примечательны:

Подтверждение интуиции: система самостоятельно «переоткрыла» функции, похожие на клиппинг в PPO.
Новые паттерны: система обнаружила механизмы, которые не проектировались людьми, включая стратегию «отката» (rollback) к референсной политике, если преимущество (advantage) оказывается отрицательным.
Автоматизация творчества: исследователи используют LLM как «двигатели творчества» для генерации новых идей и мутации программ в автоматизированном цикле открытий.

🌐 Будущее: Swarm Intelligence и холистическое выравнивание 32:12

Фёрстер высказывает убеждение, что интеллект — это эмерджентное явление, возникающее из взаимодействия множества агентов. Он выступает против идеи «монолитного AGI» (General Artificial Intelligence), считая ее антиутопичной. Вместо этого он предлагает концепцию «роевого интеллекта» (swarm intelligence) — децентрализованной сети автономных агентов.

Ключевым вызовом для человечества, по мнению профессора, является не «выравнивание» (alignment) AI с человеком, а выравнивание интересов тех, кто контролирует системы, с интересами остального населения.

⚖️ Открытый исходный код как фундамент демократии 40:48

Профессор Фёрстер активно защищает необходимость открытого исходного кода (open source) в сфере генеративного AI. Его аргументация строится на нескольких тезисах:

Баланс сил: концентрация AI-мощностей в руках узкой группы частных компаний создает угрозу для демократических структур.
Безопасность через доступность: широкий доступ к инструментам позволяет быстрее разрабатывать методы защиты от злоупотреблений, в то время как закрытость скрывает риски.
Ответственность: Фёрстер настаивает, что разработчики не должны нести юридическую ответственность за то, как именно пользователи применяют их открытые инструменты, сравнивая это с ответственностью производителя молотка за преступления, совершенные с его помощью.

Вместо текущей гонки за «максимизацией прибыли», Фёрстер призывает к созданию международного усилия масштаба CERN для разработки моделей, работающих в интересах общества. Он видит будущее в «холистически выровненных» системах, где каждый человек обладает своим персональным AI-представителем, взаимодействующим внутри сети, что делает невозможным использование технологий против интересов людей.