# Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»

Источник: https://www.youtube.com/watch?v=MrIFte_rOh0
Канал: Lex Fridman
Опубликовано: 06.05.2020

---

В диалоге с Лексом Фридманом один из ведущих мировых экспертов в области искусственного интеллекта и создатель AlphaGo Дэвид Сильвер (David Silver) раскрывает внутреннюю архитектуру и философскую подоплеку глубокого обучения с подкреплением (Deep Reinforcement Learning). Исследователь из DeepMind объясняет, почему именно эта парадигма может стать ключом к созданию универсального интеллекта и почему современные нейросети не «застревают» в процессе обучения, вопреки интуиции ученых прошлого.

## 🔄 Природа обучения с подкреплением: Агент, Среда и Награда
[[JUMP:00:01]]

Обучение с подкреплением (RL), по определению Дэвида Сильвера, представляет собой науку о решении проблемы интеллекта через взаимодействие агента с окружающей средой [0:16]. В этой парадигме весь процесс строится на циклическом обмене данными:

*   **Действие (Action):** Агент совершает шаг, который влияет на состояние мира.
*   **Наблюдение (Observation):** Среда возвращает агенту данные о его новом состоянии (сенсорные данные).
*   **Сигнал награды (Reward signal):** Специфический показатель того, насколько успешно агент справляется с поставленной задачей [0:41].

Главная цель RL-агента — выбирать такие действия с течением времени, которые максимизируют суммарный накопленный сигнал награды [0:55]. Сильвер подчеркивает амбициозность этого определения: оно пытается охватить все аспекты взаимодействия разумного существа с реальностью.

## 🧱 Три столпа архитектуры агента
[[JUMP:01:07]]

Для решения сложной задачи максимизации награды разработчики обычно декомпозируют внутреннюю структуру «головы» агента на три ключевых элемента. По словам Дэвида Сильвера, выбор этих компонентов определяет конкретный метод обучения [2:27]:

1.  **Функция ценности (Value Function):**
    Система эксплицитно пытается предсказать, какой объем награды она получит в будущем из текущего состояния [2:00].

2.  **Стратегия (Policy):**
    Представление процесса принятия решений, которое напрямую диктует, какое действие выбрать в той или иной ситуации [2:14].

3.  **Модель (Model):**
    Внутренняя репрезентация мира, с помощью которой агент пытается предсказать, что произойдет в окружающей среде после его действий [2:14].

Сильвер отмечает, что современные алгоритмы могут использовать комбинации этих блоков. Некоторые подходы могут быть «безмодельными» (model-free), фокусируясь только на стратегии или ценности, в то время как другие пытаются выстроить полноценную симуляцию мира внутри алгоритма [2:42].

## 🧠 Почему обучение неизбежно
[[JUMP:03:10]]

По мнению гостя, обучение не является жестким требованием в формальном определении RL, однако на практике оно оказывается единственным способом достичь успеха в сложных средах [4:28]. В достаточно масштабном мире невозможно заранее прописать все правила поведения.

Процесс обучения, как объясняет Сильвер, заключается в постоянном обновлении параметров системы (например, нейросети), которые определяют функцию ценности, модель или стратегию [4:55]. Эти параметры корректируются с единственной целью — улучшить показатели вознаграждения. Именно это разделение на «что мы представляем» (семантика системы) и «как мы это оптимизируем» составляет суть проектирования ИИ.

## 🚀 Глубокое обучение как универсальный инструмент
[[JUMP:05:47]]

Термин «Deep Reinforcement Learning» появляется, когда в архитектуру RL внедряются нейронные сети. Дэвид Сильвер называет глубокое обучение мощным набором инструментов, обладающим свойством универсальности [6:28].

Ключевые преимущества использования нейросетей в RL:

*   **Универсальная аппроксимация:** Нейросети способны представить и выучить абсолютно любую функцию, будь то сложная стратегия или модель мира [6:41].
*   **Отсутствие «потолка» производительности:** По мнению Сильвера, эти системы продолжают улучшаться по мере добавления вычислительных ресурсов, памяти и данных [7:07].
*   **Масштабируемость:** Чем больше опыта (взаимодействия со средой) получает система, тем точнее она оценивает свои шансы на успех и понимает структуру реальности [7:19].

## 🏔️ Парадокс высоких размерностей: почему нейросети не «застревают»
[[JUMP:07:47]]

Одним из самых удивительных открытий последних лет Сильвер называет способность нейросетей эффективно обучаться, несмотря на крайне сложный, «холмистый» ландшафт оптимизируемых функций [9:09]. 

Согласно классической интуиции, основанной на низких размерностях (2D или 3D), оптимизация должна постоянно попадать в «локальные минимумы» — точки, из которых нельзя выйти, не ухудшив результат [9:22]. Однако в пространствах с миллиардами измерений, в которых работают современные нейросети, ситуация иная.

По мнению Сильвера, в высокой размерности локальных оптимумов практически не существует [9:35]:

*   Всегда находится «путь отхода» или лазейка, позволяющая спускаться еще ниже по функции ошибки.
*   Обучение может продолжаться почти бесконечно, становясь всё лучше и лучше [9:47].

Исследователь полагает, что именно отсутствие понимания этого феномена привело к «зиме искусственного интеллекта» в прошлом [10:42]. В то время ученые работали с сетями из 50 узлов и не могли представить, что системы с миллиардами параметров будут обладать качественно иными свойствами [10:54].

## 🔮 Будущее и «Горький урок» Ричарда Саттона
[[JUMP:11:33]]

В завершение беседы Лекс Фридман и Дэвид Сильвер обсуждают философский вопрос: как будущий сверхчеловеческий ИИ посмотрит на наши сегодняшние алгоритмы? Сильвер соглашается с идеей Ричарда Саттона о «Горьком уроке» (The Bitter Lesson): долгосрочный успех в ИИ приносят простые, масштабируемые методы, полагающиеся на вычисления, а не на человеческие знания и сложные правила [12:58].

Дэвид Сильвер считает, что через тысячи лет фундаментальные идеи RL могут остаться прежними, но сегодняшние реализации могут показаться излишне сложными [12:16]. Возможно, принципы возникновения сложности из простых правил (как в клеточных автоматах) окажутся истинным путем к пониманию интеллекта [12:43]. Тем не менее, сегодня инженерам приходится строить более громоздкие системы, чтобы заставить технологию работать в реальном времени, пока мы не нашли те самые «минимальные ингредиенты» разума [13:27].