# Дэвид Сильвер об эволюции AlphaZero: как ИИ учится исправлять собственные ошибки

Источник: https://www.youtube.com/watch?v=e77NkSjnyH4
Канал: Lex Fridman
Опубликовано: 04.04.2020

---

В интервью с Лексом Фридманом один из ведущих исследователей DeepMind Дэвид Сильвер описывает путь создания AlphaZero — системы, совершившей концептуальный прорыв в области искусственного интеллекта. Основная идея заключается в переходе от обучения на человеческом опыте к методу «self-play» (самоучительство через игру с самим собой), который позволяет алгоритму достигать сверхчеловеческого уровня, не опираясь на накопленные человечеством знания.

## 🤖 Природа Self-Play и рождение AlphaGo Zero
[[JUMP:0:01]]

По словам Дэвида Сильвера, AlphaGo Zero стала фундаментальным шагом вперед, так как из процесса обучения была полностью исключена опора на партии, сыгранные экспертами-людьми [0:13]. Концепция «self-play» (игра с самим собой) подразумевает, что система изучает правила и стратегии игры, проводя миллионы матчей против собственных копий, а не против реальных оппонентов [1:11].

Дэвид Сильвер выделяет несколько ключевых преимуществ этого подхода:

*   **Универсальность:** исключение специфических человеческих знаний делает систему менее «хрупкой» и позволяет переносить алгоритм в другие области без изменения его основы [1:56].
*   **Чистота принципов:** целью команды было создание единого элегантного принципа, с помощью которого система сама открывает все необходимые знания [1:41].
*   **Определение интеллекта:** Сильвер считает сутью интеллекта наличие алгоритма, который можно поместить в любую среду с любой целью, и он сможет добиться успеха [2:37].

Исследователь отмечает, что AlphaGo Zero стала первым этапом на пути к полной автономии системы. Любопытно, что идея алгоритма AlphaZero пришла к Дэвиду Сильверу в момент максимального расслабления — во время медового месяца [3:44]. Несмотря на то, что концепция была готова еще до исторического матча с Ли Седолем, команда была слишком сосредоточена на победе над чемпионом мира, чтобы переключиться на глубокое научное исследование самообучающихся систем [4:27].

## 📈 Механизмы самокоррекции: почему система побеждает со счетом 100:0
[[JUMP:04:53]]

Одной из самых удивительных особенностей AlphaGo Zero стало то, что версия, обучавшаяся с нуля, в итоге разгромила свою предшественницу (AlphaGo), которая училась на человеческих данных, со счетом 100:0 [6:40].

Дэвид Сильвер объясняет этот феномен через механизм исправления ошибок:

1.  **Устранение «галлюцинаций»:** оригинальная AlphaGo иногда страдала от неверной оценки позиций, которые Сильвер называет «заблуждениями» (delusions). Эти ошибки часто наследовались из человеческих данных или особенностей поиска [6:52].
2.  **Итеративное обучение:** в процессе self-play система получает возможность постоянно корректировать свои оценки. Проигрывая самой себе, она понимает: «Я думала, что выиграю, но проиграла — значит, моя оценка была неверной» [7:43].
3.  **От случайности к совершенству:** процесс начинается с абсолютно случайных ходов. Исправляя мелкие глупости, система становится чуть лучше, а затем начинает анализировать ошибки этого «чуть лучшего» уровня, продвигаясь бесконечно далеко [8:10].

По мнению Сильвера, у этого процесса нет видимого потолка. Он выдвигает фальсифицируемую научную гипотезу: если запустить AlphaZero с современными вычислительными мощностями, она снова победит предыдущую версию со счетом 100:0. Хотя игра Го имеет предел сложности (примерно $10^{170}$ состояний), этот предел недостижим для любого компьютера, построенного из атомов нашей Вселенной ($10^{80}$ атомов) [10:24].

## ♟️ Обобщение AlphaZero: шахматы и сёги без лишних настроек
[[JUMP:11:46]]

Следующим триумфом DeepMind стала демонстрация того, что алгоритм AlphaZero способен осваивать совершенно разные игры без модификации программного кода [12:13]. Сильвер подчеркивает, что система смогла сокрушить сильнейшие в мире шахматные программы (включая наследников Deep Blue) и программы для игры в сёги (японские шахматы), используя те же принципы, что и в Го [12:39].

Особенно примечательным, по словам гостя, стал успех в сёги:

*   Эта игра значительно сложнее шахмат из-за правила возвращения захваченных фигур на доску [13:04].
*   Версия алгоритма, представленная в научной статье, была получена при первом же запуске на этой игре [13:17].
*   Система достигла сверхчеловеческого уровня «из коробки», без какого-либо подбора параметров (tweak) или дополнительной настройки [13:30].

Для Сильвера это подтверждает красоту универсального принципа: когда один и тот же алгоритм успешно работает в принципиально разных условиях без внешнего вмешательства [13:43].

## 🌌 MuZero: шаг в «грязный» реальный мир
[[JUMP:13:57]]

Несмотря на успехи AlphaZero, Сильвер признает, что реальный мир гораздо сложнее настольных игр. В реальности никто не дает агенту четкий свод правил. Мы понимаем мир на уровне физики, но это не та модель, которую мы используем для повседневного планирования [14:25].

Это привело к созданию системы MuZero, которая стала следующим этапом эволюции:

*   **Обучение без правил:** MuZero не получает правил игры на входе. Она должна сама понять динамику мира через наблюдения и действия [15:05].
*   **Работа с «зашумленными» данными:** систему тестировали на играх Atari, где входными данными является визуальный поток пикселей, а не абстрактная сетка поля [15:18].
*   **Неявное моделирование:** MuZero строит внутреннюю модель среды, которая достаточно богата для успешного планирования, даже если правила никогда не объяснялись агенту явно [15:45].

Сильвер подчеркивает, что MuZero без модификаций достигла того же сверхчеловеческого уровня в Го, шахматах и сёги, что и AlphaZero, доказав: ИИ может эффективно планировать свои действия, даже если он вынужден сам открывать законы функционирования этой среды [15:59]. Это открывает путь к применению алгоритмов обучения с подкреплением в любых цифровых или реальных доменах, где правила сложны или неизвестны [17:03].