AlphaGo против Ли Седоля: история матча в Сеуле

9 марта 2016 года в Сеуле начался матч между чемпионом мира Ли Седолем и программой AlphaGo. Демис Хассабис и команда Google DeepMind организовали серию из пяти игр, чтобы проверить способность искусственного интеллекта справляться с задачами, требующими интуиции. Прямую трансляцию события посмотрели сотни миллионов человек по всему миру.

🎮 Игры как полигон для обучения ИИ 1:26

Демис Хассабис начал заниматься шахматами в раннем детстве и купил свой первый компьютер в восемь лет на призовые от турнира . Он рассматривает игры как идеальную платформу для разработки алгоритмов, так как в них легко измерять прогресс через количество очков.

Команда DeepMind тестировала систему на игре Breakout. ИИ не получал инструкций о правилах и цели игры, а обучался только на основе пикселей на экране . Через 300 партий программа научилась играть на уровне человека. Спустя 500 игр алгоритм нашел оптимальную стратегию — пробивать туннель у края стены, чтобы мяч попадал в пространство за кирпичами . Разработчики не знали о такой возможности до того, как ее продемонстрировала система.

Следующим этапом стала древняя игра Го. Число возможных конфигураций на доске превышает количество атомов во вселенной . Даже мощности всех компьютеров мира не хватит для просчета всех вариантов на миллион лет вперед. В шахматах количество возможных ходов в позиции составляет около 20, в Го — около 200 .

⚔️ Первый вызов: Фань Хуэй против AlphaGo 3:17

В 2015 году DeepMind пригласила в лондонский офис Фань Хуэя, чемпиона Европы по игре Го. Фань Хуэй родился в Китае и начал заниматься профессионально в 18 лет . Он считал, что легко обыграет программу, так как до этого ИИ не достигал уровня профессионалов.

Матч состоял из пяти партий. Фань Хуэй проиграл все пять встреч со счетом 0:5 . Это стало первым случаем в истории, когда профессиональный игрок в Го уступил компьютерной программе. После поражения Фань Хуэй почувствовал сильное психологическое давление и на время покинул офис DeepMind . Позже он согласился стать консультантом команды, чтобы помочь найти слабые места алгоритма.

Разработчики использовали два основных метода обучения:

Демонстрация 100 000 партий сильных любителей, скачанных из интернета .
Обучение с подкреплением через миллионы игр программы против самой себя .

🇰🇷 Противостояние в Сеуле 13:55

Для финального испытания DeepMind выбрала Ли Седоля. Он обладает 18 мировыми титулами и считается одним из величайших игроков последнего десятилетия . Перед началом матча Ли Седоль выразил уверенность в своей победе со счетом 5:0 или 4:1 . Он полагал, что человеческая интуиция все еще превосходит возможности машин.

В Корее игра Го является частью национальной культуры. На матч аккредитовались сотни журналистов, а интерес общественности сравнивали с космической программой «Аполлон» .

Техническая структура AlphaGo включает три компонента:

Сеть политики (policy network): предсказывает наиболее вероятные ходы на основе опыта мастеров .
Сеть ценности (value net): оценивает вероятность победы в текущей позиции .
Поиск по дереву: просчитывает варианты будущего развития игры .

🧠 Ход №37 и творчество машин 45:20

Первая игра закончилась поражением Ли Седоля, что шокировало корейское сообщество Го . Во второй партии AlphaGo сделала ход под номером 37 — «удар в плечо» на пятой линии . Профессиональные комментаторы назвали этот ход ошибкой, так как люди никогда не играют так на ранних стадиях.

Анализ системы показал, что вероятность того, что человек совершит такой ход, составляла 1 к 10 000 . Ли Седоль покинул комнату на 12 минут, чтобы обдумать ситуацию . Позже он признал, что ход был «красивым и творческим». Программа не просто копировала людей, а создала собственную стратегию. Ли Седоль проиграл и вторую, и третью партии, что означало досрочную победу AlphaGo в матче .

💎 Ход №78: «Божественная игра» 1:03:57

Четвертая партия стала переломной. Ли Седоль играл более расслабленно, так как исход матча уже был решен. На 78-м ходу он сделал «вклинивание» в центре доски . Этот ход позже назвали «божественным».

AlphaGo не смогла правильно оценить последствия этого маневра. Ее процент уверенности в победе резко упал . Программа начала совершать бессмысленные ходы, которые комментаторы назвали «галлюцинациями» . Ли Седоль одержал свою первую и единственную победу в серии. Вероятность того, что AlphaGo совершила бы ход Ли Седоля, оценивалась алгоритмом в 0,007% .

🏁 Итоги и наследие матча 1:16:06

Пятая игра была напряженной и длилась до самого конца. AlphaGo победила с преимуществом в 1,5 очка, установив итоговый счет матча 4:1 . Несмотря на поражение, Ли Седоль заявил, что этот опыт помог ему вырасти как игроку и найти новые смыслы в древней игре.

Результаты матча изменили подход к Го во всем мире:

Профессионалы начали изучать «странные» ходы ИИ .
Игроки поняли, что стратегия ИИ направлена на максимизацию вероятности победы, а не на увеличение отрыва в очках .
Появилась концепция сотрудничества человека и машины для решения сложных научных задач.

Дэвид Сильвер отметил, что AlphaGo — это человеческое достижение, так как люди создали данные, алгоритмы и поисковые системы, на которых она базируется . Технологии, отработанные в Го, позже легли в основу проекта AlphaFold для решения проблемы сворачивания белков.