Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»

В диалоге с Лексом Фридманом один из ведущих мировых экспертов в области искусственного интеллекта и создатель AlphaGo Дэвид Сильвер (David Silver) раскрывает внутреннюю архитектуру и философскую подоплеку глубокого обучения с подкреплением (Deep Reinforcement Learning). Исследователь из DeepMind объясняет, почему именно эта парадигма может стать ключом к созданию универсального интеллекта и почему современные нейросети не «застревают» в процессе обучения, вопреки интуиции ученых прошлого.

🔄 Природа обучения с подкреплением: Агент, Среда и Награда 0:01

Обучение с подкреплением (RL), по определению Дэвида Сильвера, представляет собой науку о решении проблемы интеллекта через взаимодействие агента с окружающей средой . В этой парадигме весь процесс строится на циклическом обмене данными:

Действие (Action): Агент совершает шаг, который влияет на состояние мира.
Наблюдение (Observation): Среда возвращает агенту данные о его новом состоянии (сенсорные данные).
Сигнал награды (Reward signal): Специфический показатель того, насколько успешно агент справляется с поставленной задачей .

Главная цель RL-агента — выбирать такие действия с течением времени, которые максимизируют суммарный накопленный сигнал награды . Сильвер подчеркивает амбициозность этого определения: оно пытается охватить все аспекты взаимодействия разумного существа с реальностью.

🧱 Три столпа архитектуры агента 1:07

Для решения сложной задачи максимизации награды разработчики обычно декомпозируют внутреннюю структуру «головы» агента на три ключевых элемента. По словам Дэвида Сильвера, выбор этих компонентов определяет конкретный метод обучения :

Функция ценности (Value Function): Система эксплицитно пытается предсказать, какой объем награды она получит в будущем из текущего состояния .
Стратегия (Policy): Представление процесса принятия решений, которое напрямую диктует, какое действие выбрать в той или иной ситуации .
Модель (Model): Внутренняя репрезентация мира, с помощью которой агент пытается предсказать, что произойдет в окружающей среде после его действий .

Сильвер отмечает, что современные алгоритмы могут использовать комбинации этих блоков. Некоторые подходы могут быть «безмодельными» (model-free), фокусируясь только на стратегии или ценности, в то время как другие пытаются выстроить полноценную симуляцию мира внутри алгоритма .

🧠 Почему обучение неизбежно 3:10

По мнению гостя, обучение не является жестким требованием в формальном определении RL, однако на практике оно оказывается единственным способом достичь успеха в сложных средах . В достаточно масштабном мире невозможно заранее прописать все правила поведения.

Процесс обучения, как объясняет Сильвер, заключается в постоянном обновлении параметров системы (например, нейросети), которые определяют функцию ценности, модель или стратегию . Эти параметры корректируются с единственной целью — улучшить показатели вознаграждения. Именно это разделение на «что мы представляем» (семантика системы) и «как мы это оптимизируем» составляет суть проектирования ИИ.

🚀 Глубокое обучение как универсальный инструмент 5:47

Термин «Deep Reinforcement Learning» появляется, когда в архитектуру RL внедряются нейронные сети. Дэвид Сильвер называет глубокое обучение мощным набором инструментов, обладающим свойством универсальности .

Ключевые преимущества использования нейросетей в RL:

Универсальная аппроксимация: Нейросети способны представить и выучить абсолютно любую функцию, будь то сложная стратегия или модель мира .
Отсутствие «потолка» производительности: По мнению Сильвера, эти системы продолжают улучшаться по мере добавления вычислительных ресурсов, памяти и данных .
Масштабируемость: Чем больше опыта (взаимодействия со средой) получает система, тем точнее она оценивает свои шансы на успех и понимает структуру реальности .

🏔️ Парадокс высоких размерностей: почему нейросети не «застревают» 7:47

Одним из самых удивительных открытий последних лет Сильвер называет способность нейросетей эффективно обучаться, несмотря на крайне сложный, «холмистый» ландшафт оптимизируемых функций .

Согласно классической интуиции, основанной на низких размерностях (2D или 3D), оптимизация должна постоянно попадать в «локальные минимумы» — точки, из которых нельзя выйти, не ухудшив результат . Однако в пространствах с миллиардами измерений, в которых работают современные нейросети, ситуация иная.

По мнению Сильвера, в высокой размерности локальных оптимумов практически не существует :

Всегда находится «путь отхода» или лазейка, позволяющая спускаться еще ниже по функции ошибки.
Обучение может продолжаться почти бесконечно, становясь всё лучше и лучше .

Исследователь полагает, что именно отсутствие понимания этого феномена привело к «зиме искусственного интеллекта» в прошлом . В то время ученые работали с сетями из 50 узлов и не могли представить, что системы с миллиардами параметров будут обладать качественно иными свойствами .

🔮 Будущее и «Горький урок» Ричарда Саттона 11:33

В завершение беседы Лекс Фридман и Дэвид Сильвер обсуждают философский вопрос: как будущий сверхчеловеческий ИИ посмотрит на наши сегодняшние алгоритмы? Сильвер соглашается с идеей Ричарда Саттона о «Горьком уроке» (The Bitter Lesson): долгосрочный успех в ИИ приносят простые, масштабируемые методы, полагающиеся на вычисления, а не на человеческие знания и сложные правила .

Дэвид Сильвер считает, что через тысячи лет фундаментальные идеи RL могут остаться прежними, но сегодняшние реализации могут показаться излишне сложными . Возможно, принципы возникновения сложности из простых правил (как в клеточных автоматах) окажутся истинным путем к пониманию интеллекта . Тем не менее, сегодня инженерам приходится строить более громоздкие системы, чтобы заставить технологию работать в реальном времени, пока мы не нашли те самые «минимальные ингредиенты» разума .