Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»

Lex Fridman 24,3 тыс. 13 мин 4 мин 06.05.2020
Главное

В диалоге с Лексом Фридманом один из ведущих мировых экспертов в области искусственного интеллекта и создатель AlphaGo Дэвид Сильвер (David Silver) раскрывает внутреннюю архитектуру и философскую подоплеку глубокого обучения с подкреплением (Deep Reinforcement Learning). Исследователь из DeepMind объясняет, почему именно эта парадигма может стать ключом к созданию универсального интеллекта и почему современные нейросети не «застревают» в процессе обучения, вопреки интуиции ученых прошлого.

🔄 Природа обучения с подкреплением: Агент, Среда и Награда 0:01

Обучение с подкреплением (RL), по определению Дэвида Сильвера, представляет собой науку о решении проблемы интеллекта через взаимодействие агента с окружающей средой . В этой парадигме весь процесс строится на циклическом обмене данными:

Главная цель RL-агента — выбирать такие действия с течением времени, которые максимизируют суммарный накопленный сигнал награды . Сильвер подчеркивает амбициозность этого определения: оно пытается охватить все аспекты взаимодействия разумного существа с реальностью.

🧱 Три столпа архитектуры агента 1:07

Для решения сложной задачи максимизации награды разработчики обычно декомпозируют внутреннюю структуру «головы» агента на три ключевых элемента. По словам Дэвида Сильвера, выбор этих компонентов определяет конкретный метод обучения :

  1. Функция ценности (Value Function): Система эксплицитно пытается предсказать, какой объем награды она получит в будущем из текущего состояния .

  2. Стратегия (Policy): Представление процесса принятия решений, которое напрямую диктует, какое действие выбрать в той или иной ситуации .

  3. Модель (Model): Внутренняя репрезентация мира, с помощью которой агент пытается предсказать, что произойдет в окружающей среде после его действий .

Сильвер отмечает, что современные алгоритмы могут использовать комбинации этих блоков. Некоторые подходы могут быть «безмодельными» (model-free), фокусируясь только на стратегии или ценности, в то время как другие пытаются выстроить полноценную симуляцию мира внутри алгоритма .

🧠 Почему обучение неизбежно 3:10

По мнению гостя, обучение не является жестким требованием в формальном определении RL, однако на практике оно оказывается единственным способом достичь успеха в сложных средах . В достаточно масштабном мире невозможно заранее прописать все правила поведения.

Процесс обучения, как объясняет Сильвер, заключается в постоянном обновлении параметров системы (например, нейросети), которые определяют функцию ценности, модель или стратегию . Эти параметры корректируются с единственной целью — улучшить показатели вознаграждения. Именно это разделение на «что мы представляем» (семантика системы) и «как мы это оптимизируем» составляет суть проектирования ИИ.

🚀 Глубокое обучение как универсальный инструмент 5:47

Термин «Deep Reinforcement Learning» появляется, когда в архитектуру RL внедряются нейронные сети. Дэвид Сильвер называет глубокое обучение мощным набором инструментов, обладающим свойством универсальности .

Ключевые преимущества использования нейросетей в RL:

🏔️ Парадокс высоких размерностей: почему нейросети не «застревают» 7:47

Одним из самых удивительных открытий последних лет Сильвер называет способность нейросетей эффективно обучаться, несмотря на крайне сложный, «холмистый» ландшафт оптимизируемых функций .

Согласно классической интуиции, основанной на низких размерностях (2D или 3D), оптимизация должна постоянно попадать в «локальные минимумы» — точки, из которых нельзя выйти, не ухудшив результат . Однако в пространствах с миллиардами измерений, в которых работают современные нейросети, ситуация иная.

По мнению Сильвера, в высокой размерности локальных оптимумов практически не существует :

Исследователь полагает, что именно отсутствие понимания этого феномена привело к «зиме искусственного интеллекта» в прошлом . В то время ученые работали с сетями из 50 узлов и не могли представить, что системы с миллиардами параметров будут обладать качественно иными свойствами .

🔮 Будущее и «Горький урок» Ричарда Саттона 11:33

В завершение беседы Лекс Фридман и Дэвид Сильвер обсуждают философский вопрос: как будущий сверхчеловеческий ИИ посмотрит на наши сегодняшние алгоритмы? Сильвер соглашается с идеей Ричарда Саттона о «Горьком уроке» (The Bitter Lesson): долгосрочный успех в ИИ приносят простые, масштабируемые методы, полагающиеся на вычисления, а не на человеческие знания и сложные правила .

Дэвид Сильвер считает, что через тысячи лет фундаментальные идеи RL могут остаться прежними, но сегодняшние реализации могут показаться излишне сложными . Возможно, принципы возникновения сложности из простых правил (как в клеточных автоматах) окажутся истинным путем к пониманию интеллекта . Тем не менее, сегодня инженерам приходится строить более громоздкие системы, чтобы заставить технологию работать в реальном времени, пока мы не нашли те самые «минимальные ингредиенты» разума .

💬 Цитаты

«Нейронные сети — это инструментарий, у которого нет потолка производительности.»

Дэвид Сильвер 06:54

«В высокой размерности всегда есть путь наружу, позволяющий опускаться всё ниже и обучаться лучше без границ.»

Дэвид Сильвер 09:35
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Обучение с подкреплением (RL)
Метод машинного обучения, при котором агент учится принимать решения, взаимодействуя со средой и получая награды или штрафы.
Локальный минимум
Точка в пространстве параметров, где ошибка минимальна в ближайшей окрестности, но не является минимальной во всем пространстве.
Функция ценности (Value Function)
Алгоритм, предсказывающий ожидаемую суммарную награду в будущем из текущего состояния.
Аппроксиматор функций
Математическая модель (например, нейросеть), способная приближенно вычислять значения сложной функции.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект David Silver DeepMind Reinforcement Learning Deep Learning AlphaGo