В интервью с Лексом Фридманом один из ведущих исследователей DeepMind Дэвид Сильвер описывает путь создания AlphaZero — системы, совершившей концептуальный прорыв в области искусственного интеллекта. Основная идея заключается в переходе от обучения на человеческом опыте к методу «self-play» (самоучительство через игру с самим собой), который позволяет алгоритму достигать сверхчеловеческого уровня, не опираясь на накопленные человечеством знания.
🤖 Природа Self-Play и рождение AlphaGo Zero 0:01
По словам Дэвида Сильвера, AlphaGo Zero стала фундаментальным шагом вперед, так как из процесса обучения была полностью исключена опора на партии, сыгранные экспертами-людьми . Концепция «self-play» (игра с самим собой) подразумевает, что система изучает правила и стратегии игры, проводя миллионы матчей против собственных копий, а не против реальных оппонентов .
Дэвид Сильвер выделяет несколько ключевых преимуществ этого подхода:
- Универсальность: исключение специфических человеческих знаний делает систему менее «хрупкой» и позволяет переносить алгоритм в другие области без изменения его основы .
- Чистота принципов: целью команды было создание единого элегантного принципа, с помощью которого система сама открывает все необходимые знания .
- Определение интеллекта: Сильвер считает сутью интеллекта наличие алгоритма, который можно поместить в любую среду с любой целью, и он сможет добиться успеха .
Исследователь отмечает, что AlphaGo Zero стала первым этапом на пути к полной автономии системы. Любопытно, что идея алгоритма AlphaZero пришла к Дэвиду Сильверу в момент максимального расслабления — во время медового месяца . Несмотря на то, что концепция была готова еще до исторического матча с Ли Седолем, команда была слишком сосредоточена на победе над чемпионом мира, чтобы переключиться на глубокое научное исследование самообучающихся систем .
📈 Механизмы самокоррекции: почему система побеждает со счетом 100:0 4:53
Одной из самых удивительных особенностей AlphaGo Zero стало то, что версия, обучавшаяся с нуля, в итоге разгромила свою предшественницу (AlphaGo), которая училась на человеческих данных, со счетом 100:0 .
Дэвид Сильвер объясняет этот феномен через механизм исправления ошибок:
- Устранение «галлюцинаций»: оригинальная AlphaGo иногда страдала от неверной оценки позиций, которые Сильвер называет «заблуждениями» (delusions). Эти ошибки часто наследовались из человеческих данных или особенностей поиска .
- Итеративное обучение: в процессе self-play система получает возможность постоянно корректировать свои оценки. Проигрывая самой себе, она понимает: «Я думала, что выиграю, но проиграла — значит, моя оценка была неверной» .
- От случайности к совершенству: процесс начинается с абсолютно случайных ходов. Исправляя мелкие глупости, система становится чуть лучше, а затем начинает анализировать ошибки этого «чуть лучшего» уровня, продвигаясь бесконечно далеко .
По мнению Сильвера, у этого процесса нет видимого потолка. Он выдвигает фальсифицируемую научную гипотезу: если запустить AlphaZero с современными вычислительными мощностями, она снова победит предыдущую версию со счетом 100:0. Хотя игра Го имеет предел сложности (примерно $10^{170}$ состояний), этот предел недостижим для любого компьютера, построенного из атомов нашей Вселенной ($10^{80}$ атомов) .
♟️ Обобщение AlphaZero: шахматы и сёги без лишних настроек 11:46
Следующим триумфом DeepMind стала демонстрация того, что алгоритм AlphaZero способен осваивать совершенно разные игры без модификации программного кода . Сильвер подчеркивает, что система смогла сокрушить сильнейшие в мире шахматные программы (включая наследников Deep Blue) и программы для игры в сёги (японские шахматы), используя те же принципы, что и в Го .
Особенно примечательным, по словам гостя, стал успех в сёги:
- Эта игра значительно сложнее шахмат из-за правила возвращения захваченных фигур на доску .
- Версия алгоритма, представленная в научной статье, была получена при первом же запуске на этой игре .
- Система достигла сверхчеловеческого уровня «из коробки», без какого-либо подбора параметров (tweak) или дополнительной настройки .
Для Сильвера это подтверждает красоту универсального принципа: когда один и тот же алгоритм успешно работает в принципиально разных условиях без внешнего вмешательства .
🌌 MuZero: шаг в «грязный» реальный мир 13:57
Несмотря на успехи AlphaZero, Сильвер признает, что реальный мир гораздо сложнее настольных игр. В реальности никто не дает агенту четкий свод правил. Мы понимаем мир на уровне физики, но это не та модель, которую мы используем для повседневного планирования .
Это привело к созданию системы MuZero, которая стала следующим этапом эволюции:
- Обучение без правил: MuZero не получает правил игры на входе. Она должна сама понять динамику мира через наблюдения и действия .
- Работа с «зашумленными» данными: систему тестировали на играх Atari, где входными данными является визуальный поток пикселей, а не абстрактная сетка поля .
- Неявное моделирование: MuZero строит внутреннюю модель среды, которая достаточно богата для успешного планирования, даже если правила никогда не объяснялись агенту явно .
Сильвер подчеркивает, что MuZero без модификаций достигла того же сверхчеловеческого уровня в Го, шахматах и сёги, что и AlphaZero, доказав: ИИ может эффективно планировать свои действия, даже если он вынужден сам открывать законы функционирования этой среды . Это открывает путь к применению алгоритмов обучения с подкреплением в любых цифровых или реальных доменах, где правила сложны или неизвестны .