Дэвид Сильвер об эволюции AlphaZero: как ИИ учится исправлять собственные ошибки

В интервью с Лексом Фридманом один из ведущих исследователей DeepMind Дэвид Сильвер описывает путь создания AlphaZero — системы, совершившей концептуальный прорыв в области искусственного интеллекта. Основная идея заключается в переходе от обучения на человеческом опыте к методу «self-play» (самоучительство через игру с самим собой), который позволяет алгоритму достигать сверхчеловеческого уровня, не опираясь на накопленные человечеством знания.

🤖 Природа Self-Play и рождение AlphaGo Zero 0:01

По словам Дэвида Сильвера, AlphaGo Zero стала фундаментальным шагом вперед, так как из процесса обучения была полностью исключена опора на партии, сыгранные экспертами-людьми . Концепция «self-play» (игра с самим собой) подразумевает, что система изучает правила и стратегии игры, проводя миллионы матчей против собственных копий, а не против реальных оппонентов .

Дэвид Сильвер выделяет несколько ключевых преимуществ этого подхода:

Универсальность: исключение специфических человеческих знаний делает систему менее «хрупкой» и позволяет переносить алгоритм в другие области без изменения его основы .
Чистота принципов: целью команды было создание единого элегантного принципа, с помощью которого система сама открывает все необходимые знания .
Определение интеллекта: Сильвер считает сутью интеллекта наличие алгоритма, который можно поместить в любую среду с любой целью, и он сможет добиться успеха .

Исследователь отмечает, что AlphaGo Zero стала первым этапом на пути к полной автономии системы. Любопытно, что идея алгоритма AlphaZero пришла к Дэвиду Сильверу в момент максимального расслабления — во время медового месяца . Несмотря на то, что концепция была готова еще до исторического матча с Ли Седолем, команда была слишком сосредоточена на победе над чемпионом мира, чтобы переключиться на глубокое научное исследование самообучающихся систем .

📈 Механизмы самокоррекции: почему система побеждает со счетом 100:0 4:53

Одной из самых удивительных особенностей AlphaGo Zero стало то, что версия, обучавшаяся с нуля, в итоге разгромила свою предшественницу (AlphaGo), которая училась на человеческих данных, со счетом 100:0 .

Дэвид Сильвер объясняет этот феномен через механизм исправления ошибок:

Устранение «галлюцинаций»: оригинальная AlphaGo иногда страдала от неверной оценки позиций, которые Сильвер называет «заблуждениями» (delusions). Эти ошибки часто наследовались из человеческих данных или особенностей поиска .
Итеративное обучение: в процессе self-play система получает возможность постоянно корректировать свои оценки. Проигрывая самой себе, она понимает: «Я думала, что выиграю, но проиграла — значит, моя оценка была неверной» .
От случайности к совершенству: процесс начинается с абсолютно случайных ходов. Исправляя мелкие глупости, система становится чуть лучше, а затем начинает анализировать ошибки этого «чуть лучшего» уровня, продвигаясь бесконечно далеко .

По мнению Сильвера, у этого процесса нет видимого потолка. Он выдвигает фальсифицируемую научную гипотезу: если запустить AlphaZero с современными вычислительными мощностями, она снова победит предыдущую версию со счетом 100:0. Хотя игра Го имеет предел сложности (примерно $10^{170}$ состояний), этот предел недостижим для любого компьютера, построенного из атомов нашей Вселенной ($10^{80}$ атомов) .

♟️ Обобщение AlphaZero: шахматы и сёги без лишних настроек 11:46

Следующим триумфом DeepMind стала демонстрация того, что алгоритм AlphaZero способен осваивать совершенно разные игры без модификации программного кода . Сильвер подчеркивает, что система смогла сокрушить сильнейшие в мире шахматные программы (включая наследников Deep Blue) и программы для игры в сёги (японские шахматы), используя те же принципы, что и в Го .

Особенно примечательным, по словам гостя, стал успех в сёги:

Эта игра значительно сложнее шахмат из-за правила возвращения захваченных фигур на доску .
Версия алгоритма, представленная в научной статье, была получена при первом же запуске на этой игре .
Система достигла сверхчеловеческого уровня «из коробки», без какого-либо подбора параметров (tweak) или дополнительной настройки .

Для Сильвера это подтверждает красоту универсального принципа: когда один и тот же алгоритм успешно работает в принципиально разных условиях без внешнего вмешательства .

🌌 MuZero: шаг в «грязный» реальный мир 13:57

Несмотря на успехи AlphaZero, Сильвер признает, что реальный мир гораздо сложнее настольных игр. В реальности никто не дает агенту четкий свод правил. Мы понимаем мир на уровне физики, но это не та модель, которую мы используем для повседневного планирования .

Это привело к созданию системы MuZero, которая стала следующим этапом эволюции:

Обучение без правил: MuZero не получает правил игры на входе. Она должна сама понять динамику мира через наблюдения и действия .
Работа с «зашумленными» данными: систему тестировали на играх Atari, где входными данными является визуальный поток пикселей, а не абстрактная сетка поля .
Неявное моделирование: MuZero строит внутреннюю модель среды, которая достаточно богата для успешного планирования, даже если правила никогда не объяснялись агенту явно .

Сильвер подчеркивает, что MuZero без модификаций достигла того же сверхчеловеческого уровня в Го, шахматах и сёги, что и AlphaZero, доказав: ИИ может эффективно планировать свои действия, даже если он вынужден сам открывать законы функционирования этой среды . Это открывает путь к применению алгоритмов обучения с подкреплением в любых цифровых или реальных доменах, где правила сложны или неизвестны .