Дэвид Сильвер об эволюции AlphaZero: как ИИ учится исправлять собственные ошибки

Lex Fridman 16,3 тыс. 17 мин 4 мин 04.04.2020
Главное

В интервью с Лексом Фридманом один из ведущих исследователей DeepMind Дэвид Сильвер описывает путь создания AlphaZero — системы, совершившей концептуальный прорыв в области искусственного интеллекта. Основная идея заключается в переходе от обучения на человеческом опыте к методу «self-play» (самоучительство через игру с самим собой), который позволяет алгоритму достигать сверхчеловеческого уровня, не опираясь на накопленные человечеством знания.

🤖 Природа Self-Play и рождение AlphaGo Zero 0:01

По словам Дэвида Сильвера, AlphaGo Zero стала фундаментальным шагом вперед, так как из процесса обучения была полностью исключена опора на партии, сыгранные экспертами-людьми . Концепция «self-play» (игра с самим собой) подразумевает, что система изучает правила и стратегии игры, проводя миллионы матчей против собственных копий, а не против реальных оппонентов .

Дэвид Сильвер выделяет несколько ключевых преимуществ этого подхода:

Исследователь отмечает, что AlphaGo Zero стала первым этапом на пути к полной автономии системы. Любопытно, что идея алгоритма AlphaZero пришла к Дэвиду Сильверу в момент максимального расслабления — во время медового месяца . Несмотря на то, что концепция была готова еще до исторического матча с Ли Седолем, команда была слишком сосредоточена на победе над чемпионом мира, чтобы переключиться на глубокое научное исследование самообучающихся систем .

📈 Механизмы самокоррекции: почему система побеждает со счетом 100:0 4:53

Одной из самых удивительных особенностей AlphaGo Zero стало то, что версия, обучавшаяся с нуля, в итоге разгромила свою предшественницу (AlphaGo), которая училась на человеческих данных, со счетом 100:0 .

Дэвид Сильвер объясняет этот феномен через механизм исправления ошибок:

  1. Устранение «галлюцинаций»: оригинальная AlphaGo иногда страдала от неверной оценки позиций, которые Сильвер называет «заблуждениями» (delusions). Эти ошибки часто наследовались из человеческих данных или особенностей поиска .
  2. Итеративное обучение: в процессе self-play система получает возможность постоянно корректировать свои оценки. Проигрывая самой себе, она понимает: «Я думала, что выиграю, но проиграла — значит, моя оценка была неверной» .
  3. От случайности к совершенству: процесс начинается с абсолютно случайных ходов. Исправляя мелкие глупости, система становится чуть лучше, а затем начинает анализировать ошибки этого «чуть лучшего» уровня, продвигаясь бесконечно далеко .

По мнению Сильвера, у этого процесса нет видимого потолка. Он выдвигает фальсифицируемую научную гипотезу: если запустить AlphaZero с современными вычислительными мощностями, она снова победит предыдущую версию со счетом 100:0. Хотя игра Го имеет предел сложности (примерно $10^{170}$ состояний), этот предел недостижим для любого компьютера, построенного из атомов нашей Вселенной ($10^{80}$ атомов) .

♟️ Обобщение AlphaZero: шахматы и сёги без лишних настроек 11:46

Следующим триумфом DeepMind стала демонстрация того, что алгоритм AlphaZero способен осваивать совершенно разные игры без модификации программного кода . Сильвер подчеркивает, что система смогла сокрушить сильнейшие в мире шахматные программы (включая наследников Deep Blue) и программы для игры в сёги (японские шахматы), используя те же принципы, что и в Го .

Особенно примечательным, по словам гостя, стал успех в сёги:

Для Сильвера это подтверждает красоту универсального принципа: когда один и тот же алгоритм успешно работает в принципиально разных условиях без внешнего вмешательства .

🌌 MuZero: шаг в «грязный» реальный мир 13:57

Несмотря на успехи AlphaZero, Сильвер признает, что реальный мир гораздо сложнее настольных игр. В реальности никто не дает агенту четкий свод правил. Мы понимаем мир на уровне физики, но это не та модель, которую мы используем для повседневного планирования .

Это привело к созданию системы MuZero, которая стала следующим этапом эволюции:

Сильвер подчеркивает, что MuZero без модификаций достигла того же сверхчеловеческого уровня в Го, шахматах и сёги, что и AlphaZero, доказав: ИИ может эффективно планировать свои действия, даже если он вынужден сам открывать законы функционирования этой среды . Это открывает путь к применению алгоритмов обучения с подкреплением в любых цифровых или реальных доменах, где правила сложны или неизвестны .

💬 Цитаты

«Суть интеллекта в том, что у нас есть алгоритм, который можно поместить в любую среду, и он добьется успеха.»

Дэвид Сильвер 02:37

«Единственный способ устранить ошибки в сложной системе — дать системе возможность исправлять свои ошибки самой.»

Дэвид Сильвер 07:31

«Алгоритм AlphaZero просто появился во всей своей полноте, когда я был в состоянии максимального расслабления.»

Дэвид Сильвер 04:13
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Self-play
Метод обучения ИИ, при котором агент играет сам с собой для открытия новых стратегий без участия человека.
Сёги (Shogi)
Японский вариант шахмат, в котором захваченные фигуры могут быть возвращены на поле на стороне захватчика.
MuZero
Алгоритм, способный обучаться стратегиям в играх, не зная их правил заранее, через моделирование динамики среды.
Perfect information games
Игры с полной информацией (как шахматы или Го), где обоим игрокам известны все состояния и история ходов.
📊 Цифры
🗓 Хронология
  1. 2016 Исторический матч AlphaGo против Ли Седоля (контекст обсуждения).
  2. Период разработки AlphaZero Идея алгоритма AlphaZero возникла у Сильвера во время медового месяца.
  3. После AlphaZero Создание MuZero — системы, обучающейся без знания правил.
⚖️ Другая сторона
Искусственный интеллект Дэвид Сильвер AlphaZero DeepMind MuZero Self-play