Спор о свободе воли, который создал Google

В 1905 году Андрей Марков вступил в открытый конфликт с Павлом Некрасовым из-за математического обоснования свободы воли. Этот спор между сторонником царя и убежденным атеистом привел к созданию теории цепей Маркова, которая сегодня управляет поисковыми алгоритмами и языковыми моделями .

⚔️ Математическая дуэль за свободу воли 0:00

В начале XX века российское общество раскололось на монархистов и социалистов. Павел Некрасов, которого называли «царем вероятности», пытался доказать божественный замысел и наличие у человека свободы воли с помощью математики . Он опирался на Закон больших чисел, сформулированный Якобом Бернулли в 1713 году .

Бернулли доказал: при большом количестве независимых испытаний средний результат стремится к ожидаемому значению. Некрасов сделал обратный вывод. Если статистика браков, преступлений или рождений демонстрирует стабильность, значит, в основе лежат независимые события . Для него независимость в математике была эквивалентом свободы воли в жизни.

Андрей Марков посчитал доводы оппонента абсурдными. Он решил доказать, что зависимые события тоже могут подчиняться закону больших чисел. Для эксперимента он выбрал текст романа «Евгений Онегин» Александра Пушкина .

Марков проанализировал 20 000 букв, разделив их на гласные и согласные. Он обнаружил:

Гласные встречаются в 43% случаев, согласные — в 57% .
Вероятность появления гласной после другой гласной составляет всего 13% .
Вероятность появления согласной после согласной — около 67%.

Это была первая в истории Цепь Маркова — система, где будущее состояние зависит только от текущего, а не от всей цепочки предшествующих событий . Марков показал, что даже в жестко зависимых системах средние значения стабилизируются. Его вывод был ироничным ударом по Некрасову: для работы теории вероятностей свобода воли не обязательна .

⚛️ От пасьянса до ядерной бомбы 9:43

В 1945 году США взорвали первую атомную бомбу в рамках Манхэттенского проекта. После войны математик Станислав Улам пытался рассчитать поведение нейтронов в урановом ядре . Прямые вычисления были невозможны из-за триллионов взаимодействий частиц.

В 1946 году Станислав Улам заболел энцефалитом и во время долгого восстановления играл в пасьянс . Он пытался вычислить вероятность выигрыша математически, но комбинаций было слишком много — 52 факториал. Тогда его осенило: можно просто сыграть сотни партий и подсчитать процент побед .

Вернувшись к работе, он предложил этот метод Джону фон Нейману для моделирования ядерных реакций. Поскольку поведение нейтрона зависит от его текущего положения и скорости, ученые применили цепи Маркова . Они использовали компьютер ENIAC для симуляции цепочек событий:

Нейтрон перемещается и сталкивается с атомом.
Он может рассеяться, покинуть систему или вызвать деление ядра .
При делении высвобождаются новые нейтроны, начинающие свои цепи.

Система вычисляла коэффициент размножения k. Если он больше единицы, реакция растет экспоненциально . Метод назвали «Монте-Карло» в честь казино в Монако, где играл дядя Улама .

🌐 Алгоритм на триллион долларов 16:32

В середине 1990-х интернет рос хаотично, и поисковики вроде Yahoo не справлялись с сортировкой информации. В 1995 году Масаёши Сон инвестировал в Yahoo 100 миллионов долларов, поставив создателям ультиматум: принять деньги или столкнуться с конкурентами, которых он профинансирует .

Yahoo доминировал за счет маркетинга, но его поиск был примитивным. Владельцы сайтов обманывали систему, повторяя ключевые слова белым шрифтом на белом фоне . Питер Норвиг объясняет: в те годы поисковики понимали релевантность, но не понимали качество контента.

Студенты Стэнфорда Сергей Брин и Ларри Пейдж предложили оценивать важность страниц через ссылки. Они представили интернет как огромную цепь Маркова :

Каждая ссылка — это «голос» за страницу.
Переход по ссылке — это переход между состояниями.
Вероятность оказаться на странице определяет её рейтинг (PageRank).

Они ввели «коэффициент затухания»: в 85% случаев виртуальный серфер идет по ссылке, а в 15% — прыгает на случайный адрес . Это не давало алгоритму зациклиться. В 1998 году они зарегистрировали домен Google, случайно допустив ошибку в написании числа «гугол» (единица со ста нулями) . Сегодня капитализация компании Alphabet составляет около 2 триллионов долларов .

🤖 Будущее без памяти 25:16

Цепи Маркова лежат в основе Т9 и современных чат-ботов. Клод Шеннон в 1940-х годах показал, что точность предсказания текста растет, если учитывать не одну предыдущую букву, а целые слова . Современные языковые модели используют токены — фрагменты слов или знаки препинания .

Отличие современных нейросетей от простых цепей Маркова заключается в механизме внимания. Он позволяет модели понимать контекст: например, слово «клетка» в биологическом тексте не будет перепутано с тюремной камерой .

Главная особенность цепей Маркова — отсутствие памяти. Системе не нужно знать историю всех прошлых состояний, достаточно текущего . Это свойство позволяет упрощать сложнейшие процессы и делать прогнозы в метеорологии, биологии и физике.

Математика помогает ответить даже на бытовые вопросы. Чтобы полностью перемешать колоду из 52 карт, нужно сделать ровно семь «рифельных» тасовок (когда колоду делят пополам и листуют) . Если просто небрежно мешать карты руками, для достижения случайности потребуется более 2000 движений .