# AlphaGo против Ли Седоля: история матча в Сеуле

Источник: https://www.youtube.com/watch?v=WXuK6gekU1Y
Канал: Google DeepMind
Опубликовано: 13.03.2020

---

9 марта 2016 года в Сеуле начался матч между чемпионом мира Ли Седолем и программой AlphaGo. Демис Хассабис и команда Google DeepMind организовали серию из пяти игр, чтобы проверить способность искусственного интеллекта справляться с задачами, требующими интуиции. Прямую трансляцию события посмотрели сотни миллионов человек по всему миру.

## 🎮 Игры как полигон для обучения ИИ
[[JUMP:01:26]]

Демис Хассабис начал заниматься шахматами в раннем детстве и купил свой первый компьютер в восемь лет на призовые от турнира [01:39]. Он рассматривает игры как идеальную платформу для разработки алгоритмов, так как в них легко измерять прогресс через количество очков. 

Команда DeepMind тестировала систему на игре Breakout. ИИ не получал инструкций о правилах и цели игры, а обучался только на основе пикселей на экране [02:09]. Через 300 партий программа научилась играть на уровне человека. Спустя 500 игр алгоритм нашел оптимальную стратегию — пробивать туннель у края стены, чтобы мяч попадал в пространство за кирпичами [02:48]. Разработчики не знали о такой возможности до того, как ее продемонстрировала система.

Следующим этапом стала древняя игра Го. Число возможных конфигураций на доске превышает количество атомов во вселенной [08:27]. Даже мощности всех компьютеров мира не хватит для просчета всех вариантов на миллион лет вперед. В шахматах количество возможных ходов в позиции составляет около 20, в Го — около 200 [08:34].

## ⚔️ Первый вызов: Фань Хуэй против AlphaGo
[[JUMP:03:17]]

В 2015 году DeepMind пригласила в лондонский офис Фань Хуэя, чемпиона Европы по игре Го. Фань Хуэй родился в Китае и начал заниматься профессионально в 18 лет [03:56]. Он считал, что легко обыграет программу, так как до этого ИИ не достигал уровня профессионалов.

Матч состоял из пяти партий. Фань Хуэй проиграл все пять встреч со счетом 0:5 [09:59]. Это стало первым случаем в истории, когда профессиональный игрок в Го уступил компьютерной программе. После поражения Фань Хуэй почувствовал сильное психологическое давление и на время покинул офис DeepMind [10:52]. Позже он согласился стать консультантом команды, чтобы помочь найти слабые места алгоритма.

Разработчики использовали два основных метода обучения:

*   Демонстрация 100 000 партий сильных любителей, скачанных из интернета [11:50].
*   Обучение с подкреплением через миллионы игр программы против самой себя [12:05].

## 🇰🇷 Противостояние в Сеуле
[[JUMP:13:55]]

Для финального испытания DeepMind выбрала Ли Седоля. Он обладает 18 мировыми титулами и считается одним из величайших игроков последнего десятилетия [14:20]. Перед началом матча Ли Седоль выразил уверенность в своей победе со счетом 5:0 или 4:1 [15:06]. Он полагал, что человеческая интуиция все еще превосходит возможности машин.

В Корее игра Го является частью национальной культуры. На матч аккредитовались сотни журналистов, а интерес общественности сравнивали с космической программой «Аполлон» [06:00]. 

Техническая структура AlphaGo включает три компонента:

1.  **Сеть политики (policy network):** предсказывает наиболее вероятные ходы на основе опыта мастеров [47:22].
2.  **Сеть ценности (value net):** оценивает вероятность победы в текущей позиции [47:35].
3.  **Поиск по дереву:** просчитывает варианты будущего развития игры [47:45].

## 🧠 Ход №37 и творчество машин
[[JUMP:45:20]]

Первая игра закончилась поражением Ли Седоля, что шокировало корейское сообщество Го [40:11]. Во второй партии AlphaGo сделала ход под номером 37 — «удар в плечо» на пятой линии [49:44]. Профессиональные комментаторы назвали этот ход ошибкой, так как люди никогда не играют так на ранних стадиях.

Анализ системы показал, что вероятность того, что человек совершит такой ход, составляла 1 к 10 000 [51:06]. Ли Седоль покинул комнату на 12 минут, чтобы обдумать ситуацию [52:40]. Позже он признал, что ход был «красивым и творческим». Программа не просто копировала людей, а создала собственную стратегию. Ли Седоль проиграл и вторую, и третью партии, что означало досрочную победу AlphaGo в матче [1:00:43].

## 💎 Ход №78: «Божественная игра»
[[JUMP:1:03:57]]

Четвертая партия стала переломной. Ли Седоль играл более расслабленно, так как исход матча уже был решен. На 78-м ходу он сделал «вклинивание» в центре доски [1:06:54]. Этот ход позже назвали «божественным».

AlphaGo не смогла правильно оценить последствия этого маневра. Ее процент уверенности в победе резко упал [1:07:34]. Программа начала совершать бессмысленные ходы, которые комментаторы назвали «галлюцинациями» [1:08:15]. Ли Седоль одержал свою первую и единственную победу в серии. Вероятность того, что AlphaGo совершила бы ход Ли Седоля, оценивалась алгоритмом в 0,007% [1:15:39].

## 🏁 Итоги и наследие матча
[[JUMP:1:16:06]]

Пятая игра была напряженной и длилась до самого конца. AlphaGo победила с преимуществом в 1,5 очка, установив итоговый счет матча 4:1 [1:20:20]. Несмотря на поражение, Ли Седоль заявил, что этот опыт помог ему вырасти как игроку и найти новые смыслы в древней игре.

Результаты матча изменили подход к Го во всем мире:

*   Профессионалы начали изучать «странные» ходы ИИ [1:19:14].
*   Игроки поняли, что стратегия ИИ направлена на максимизацию вероятности победы, а не на увеличение отрыва в очках [1:19:52].
*   Появилась концепция сотрудничества человека и машины для решения сложных научных задач.

Дэвид Сильвер отметил, что AlphaGo — это человеческое достижение, так как люди создали данные, алгоритмы и поисковые системы, на которых она базируется [42:08]. Технологии, отработанные в Го, позже легли в основу проекта AlphaFold для решения проблемы сворачивания белков.