AlphaGo против Ли Седоля: история матча в Сеуле

Google DeepMind 38 млн 1 ч 30 мин 4 мин 13.03.2020
Главное

9 марта 2016 года в Сеуле начался матч между чемпионом мира Ли Седолем и программой AlphaGo. Демис Хассабис и команда Google DeepMind организовали серию из пяти игр, чтобы проверить способность искусственного интеллекта справляться с задачами, требующими интуиции. Прямую трансляцию события посмотрели сотни миллионов человек по всему миру.

🎮 Игры как полигон для обучения ИИ 1:26

Демис Хассабис начал заниматься шахматами в раннем детстве и купил свой первый компьютер в восемь лет на призовые от турнира . Он рассматривает игры как идеальную платформу для разработки алгоритмов, так как в них легко измерять прогресс через количество очков.

Команда DeepMind тестировала систему на игре Breakout. ИИ не получал инструкций о правилах и цели игры, а обучался только на основе пикселей на экране . Через 300 партий программа научилась играть на уровне человека. Спустя 500 игр алгоритм нашел оптимальную стратегию — пробивать туннель у края стены, чтобы мяч попадал в пространство за кирпичами . Разработчики не знали о такой возможности до того, как ее продемонстрировала система.

Следующим этапом стала древняя игра Го. Число возможных конфигураций на доске превышает количество атомов во вселенной . Даже мощности всех компьютеров мира не хватит для просчета всех вариантов на миллион лет вперед. В шахматах количество возможных ходов в позиции составляет около 20, в Го — около 200 .

⚔️ Первый вызов: Фань Хуэй против AlphaGo 3:17

В 2015 году DeepMind пригласила в лондонский офис Фань Хуэя, чемпиона Европы по игре Го. Фань Хуэй родился в Китае и начал заниматься профессионально в 18 лет . Он считал, что легко обыграет программу, так как до этого ИИ не достигал уровня профессионалов.

Матч состоял из пяти партий. Фань Хуэй проиграл все пять встреч со счетом 0:5 . Это стало первым случаем в истории, когда профессиональный игрок в Го уступил компьютерной программе. После поражения Фань Хуэй почувствовал сильное психологическое давление и на время покинул офис DeepMind . Позже он согласился стать консультантом команды, чтобы помочь найти слабые места алгоритма.

Разработчики использовали два основных метода обучения:

🇰🇷 Противостояние в Сеуле 13:55

Для финального испытания DeepMind выбрала Ли Седоля. Он обладает 18 мировыми титулами и считается одним из величайших игроков последнего десятилетия . Перед началом матча Ли Седоль выразил уверенность в своей победе со счетом 5:0 или 4:1 . Он полагал, что человеческая интуиция все еще превосходит возможности машин.

В Корее игра Го является частью национальной культуры. На матч аккредитовались сотни журналистов, а интерес общественности сравнивали с космической программой «Аполлон» .

Техническая структура AlphaGo включает три компонента:

  1. Сеть политики (policy network): предсказывает наиболее вероятные ходы на основе опыта мастеров .
  2. Сеть ценности (value net): оценивает вероятность победы в текущей позиции .
  3. Поиск по дереву: просчитывает варианты будущего развития игры .

🧠 Ход №37 и творчество машин 45:20

Первая игра закончилась поражением Ли Седоля, что шокировало корейское сообщество Го . Во второй партии AlphaGo сделала ход под номером 37 — «удар в плечо» на пятой линии . Профессиональные комментаторы назвали этот ход ошибкой, так как люди никогда не играют так на ранних стадиях.

Анализ системы показал, что вероятность того, что человек совершит такой ход, составляла 1 к 10 000 . Ли Седоль покинул комнату на 12 минут, чтобы обдумать ситуацию . Позже он признал, что ход был «красивым и творческим». Программа не просто копировала людей, а создала собственную стратегию. Ли Седоль проиграл и вторую, и третью партии, что означало досрочную победу AlphaGo в матче .

💎 Ход №78: «Божественная игра» 1:03:57

Четвертая партия стала переломной. Ли Седоль играл более расслабленно, так как исход матча уже был решен. На 78-м ходу он сделал «вклинивание» в центре доски . Этот ход позже назвали «божественным».

AlphaGo не смогла правильно оценить последствия этого маневра. Ее процент уверенности в победе резко упал . Программа начала совершать бессмысленные ходы, которые комментаторы назвали «галлюцинациями» . Ли Седоль одержал свою первую и единственную победу в серии. Вероятность того, что AlphaGo совершила бы ход Ли Седоля, оценивалась алгоритмом в 0,007% .

🏁 Итоги и наследие матча 1:16:06

Пятая игра была напряженной и длилась до самого конца. AlphaGo победила с преимуществом в 1,5 очка, установив итоговый счет матча 4:1 . Несмотря на поражение, Ли Седоль заявил, что этот опыт помог ему вырасти как игроку и найти новые смыслы в древней игре.

Результаты матча изменили подход к Го во всем мире:

Дэвид Сильвер отметил, что AlphaGo — это человеческое достижение, так как люди создали данные, алгоритмы и поисковые системы, на которых она базируется . Технологии, отработанные в Го, позже легли в основу проекта AlphaFold для решения проблемы сворачивания белков.

💬 Цитаты

«Я думал, что AlphaGo — это просто машина, работающая на расчетах. Но когда я увидел этот ход, я передумал. AlphaGo креативна.»

Ли Седоль 52:19

«Игра Го — это святой грааль искусственного интеллекта.»

Дэвид Сильвер 06:40

«AlphaGo — это зеркало. Когда вы играете с ней, вы видите настоящего себя.»

👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
9-й дан
Высший профессиональный ранг в игре Го.
Коми
Компенсационные очки (обычно 7,5), которые добавляются белому игроку за право второго хода.
Удар в плечо
Ход в Го, совершаемый по диагонали над камнем противника.
Обучение с подкреплением
Метод машинного обучения, при котором система обучается, совершая действия в среде и получая вознаграждение.
📊 Цифры
🗓 Хронология
  1. Октябрь 2015 AlphaGo побеждает чемпиона Европы Фань Хуэя со счетом 5:0.
  2. 9 марта 2016 Начало матча против Ли Седоля в Сеуле.
  3. 13 марта 2016 Ли Седоль выигрывает четвертую партию, находя слабость в алгоритме.
  4. 15 марта 2016 Завершение матча со счетом 4:1 в пользу AlphaGo.
⚖️ Другая сторона
Искусственный интеллект AlphaGo DeepMind Ли Седоль Демис Хассабис Go