Коннор Танн: как байесовский подход меняет современное машинное обучение

В эпоху доминирования больших данных и глубоких нейронных сетей классический спор между частотным и байесовским подходами в статистике разгорается с новой силой. В рамках подкаста Machine Learning Street Talk исследователь Коннор Танн совместно с ведущими Китом Даггаром, Тимом Скарфом и Алексом подробно разобрали, почему современное машинное обучение неизбежно возвращается к истокам математики неопределенности. В центре дискуссии — вычислительные барьеры прошлого, практическая польза априорных знаний для бизнеса и глубокие философские различия в интерпретации самой природы случайных событий.

🏛️ От Сократа до Лапласа: эволюция понятия вероятности 0:11

Понятие вероятности как чего-то большего, чем просто частота повторения событий, уходит корнями глубоко в историю человечества. Еще древнегреческие философы оперировали термином icos, который Сократ описывал как «подобие истины», отделяя его от абсолютной истины, доказуемой исключительно методами дедуктивной логики. Однако практический путь цивилизации к этой концепции начался с банального подсчета частот в азартных играх.

Развитие математического аппарата шло медленно:

В середине 1600-х годов великие французские математики Пьер Ферма и Блез Паскаль заложили первые камни в фундамент современной теории вероятностей.
В течение следующего столетия концепция продвинулась вперед благодаря работам Томаса Байеса, обратившегося к проблеме так называемой обратной вероятности.
В начале 1800-х годов Пьер-Симон Лаплас обобщил теорию вероятностей, выведя её за рамки азартных игр и превратив в мощный инструмент научного вывода.

Как справедливо отметил выдающийся физик Джеймс Клерк Максвелл, истинная логика нашего мира кроется именно в теории вероятностей. Данный тезис подчеркивает, что на самом фундаментальном уровне вселенная управляется не жестким детерминизмом, а законами неопределенности.

📉 Почему XX век стал эпохой частотной статистики 1:56

Учитывая столь тяжелый интеллектуальный прогресс человечества — от примитивного подсчета костей до универсального вероятностного вывода, — возникает резонный вопрос: почему в начале 1900-х годов наука совершила шаг назад, временно погрузившись в догмы частотного подхода? По мнению Кита Даггара, для этого существовали две ключевые причины.

Во-первых, решение реальных физических систем методами байесовского анализа часто оказывается математически невыполнимым из-за необходимости вычисления сложнейших многомерных интегралов. Даже в таких фундаментальных областях, как общая теория относительности или квантовая механика, ученым приходится идти на колоссальные упрощения. В начале XX века прикладные математики попросту не обладали вычислительными мощностями для реализации байесовской логики, поэтому они сознательно повернули в сторону упрощенных статистических моделей.

Во-вторых, огромную роль сыграл человеческий фактор. В тот период в прикладной науке доминировала крайне авторитарная, а по оценкам некоторых современников, даже агрессивная фигура британского статистика и генетика сэра Рональда Фишера. Успешное внедрение частотных методов в генетику в сочетании с жестким авторитетом Фишера создало своеобразную «гравитационную воронку», утянувшую целые поколения ученых в жесткие рамки частотной парадигмы.

Оценивая этот исторический период, исполнительный директор Института Алана Тьюринга сэр Эдриан Смит высказался весьма устрожающе. По его мнению, любой подход к научному выводу, пытающийся легитимизировать фиксированный ответ в условиях сложной неопределенности, представляет собой тоталитарную пародию на рациональный процесс обучения. Рано или поздно классическая статистика ломается под грузом системной сложности, заставляя исследователей возвращаться к математике неопределенности.

🔄 Возрождение байесовских методов в эпоху вычислительного изобилия 3:58

Сегодня условия кардинально изменились. Развитие таких дисциплин, как теория информации, дифференциальная геометрия и теоретическая физика, вкупе с ростом доступной компьютерной мощности создали идеальную почву для ренессанса байесовских методов. Алгоритмы вроде ядерных методов, эмпирического Байеса и, в особенности, метода Монте-Карло по схеме марковских цепей (MCMC) позволили преодолеть старые вычислительные ограничения.

Гость подкаста, физик и старший дата-сайентист Коннор Танн, окончивший Кембриджский университет со степенью в области экспериментальной и теоретической физики и магистратурой по астрофизике элементарных частиц, признается, что сам стал «новообращенным» байесовцем далеко не сразу. Как и большинство академических специалистов, в университете он изучал исключительно частотную классику: проверку гипотез, t-критерии и стандартные аппроксимации. Однако столкновение с реальными промышленными задачами быстро вскрыло ограниченность этих инструментов.

Поворотным моментом в карьере Коннора Танна стала совместная работа с коллегой-физиком по имени Анджум. В своих отчетах Анджум вместо стандартных тестов гипотез постоянно использовал сэмплирование MCMC и периоды «разогрева» (burn-in) модели. Поначалу это казалось Коннору Танну абсолютно непонятной экзотикой, но результаты вычислений Анджума раз за разом с поразительной точностью совпадали со здравым смыслом и реальным положением дел, в то время как классический частотный подход давал сбои. Ведущим фактором перехода в «байесовскую парадигму» послужила необходимость работы с малыми наборами данных при наличии огромного пласта накопленных физических и инженерных знаний.

🧠 Истинная уверенность против «костылей» машинного обучения 8:13

Главное преимущество байесовского подхода перед традиционными методами заключается в возможности строго математически зафиксировать и использовать априорные убеждения (priors). В реальной жизни человек, видя новые данные, не забывает мгновенно всё, что он знал о мире ранее. Частотная же статистика демонстрирует близорукую реакцию, фокусируясь исключительно на изолированном свежем фрагменте информации, что регулярно приводит к неверным выводам.

В современном машинном обучении разработчики часто пытаются имитировать оценку уверенности модели с помощью различных ухищрений. Например, в бинарных классификаторах или нейронных сетях выходы масштабируются через функцию сигмоиды, выдавая значение от 0 до 1. Принято считать, что чем ближе значение к единице, тем выше уверенность алгоритма. Существуют и более сложные надстройки, такие как трансдуктивные машины уверенности (Transductive Confidence Machines), вычисляющие так называемую «меру странности» объекта.

Однако Кит Даггар подчеркивает, что все эти подходы являются произвольными инженерными «костылями» (hacks), выдуманными из головы или отобранными методом перебора сотен вариантов. Напротив, байесовский метод напрямую и строго выводится из фундаментального правила произведения теории вероятностей:

$$P(A \cap B) = P(A|B) \cdot P(B)$$

Отрицать теорему Байеса — значит отрицать само правило произведения, с чем не поспорит ни один математик. Этот подход дает легитимную математическую основу для последовательного объединения различных массивов данных.

С другой стороны, Коннор Танн выступил в защиту инженерных трюков. Он отметил, что многие эмпирические приемы в машинном обучении, которые инженеры используют просто потому, что они работают, впоследствии можно строго обосновать через байесовский фреймворк. Самые яркие примеры:

Регуляризация L2 (Ridge regression) математически эквивалентна введению гауссовского априорного распределения над параметрами модели.
Регуляризация L1 (Lasso) напрямую соответствует допущению об априорном распределении Лапласа.
Слои исключения (dropout) в глубоких нейронных сетях, хаотично зануляющие веса при обучении, фактически представляют собой метод случайного исследования пространства из-за невозможности напрямую вычислить гигантские многомерные интегралы маргинализации.

📊 Математика распределений: почему природа не любит нормальность 15:15

В любой модели всегда присутствуют скрытые допущения и априорные ограничения. Как отмечал в недавнем интервью профессор Макс Веллинг, внедрение более сильных индуктивных априорных допущений делает алгоритмы значительно более эффективными с точки зрения объема выборки (sample efficient). Примером может служить использование гауссовских процессов (Gaussian Processes) вместо ядерной ридж-регрессии. В то время как классическая регрессия выдает лишь точечное предсказание функции, гауссовский процесс возвращает полноценное распределение с четким расчетом стандартного отклонения в каждой точке. В реальном бизнесе знание степени своей неуверенности часто ценится гораздо выше, чем само предсказание.

Байесовский подход учит, что сумма знаний после эксперимента выражается в виде распределения, а не одного конкретного числа. Сжатие этой информации до точечной статистики (среднего, моды или медианы) переводит исследователя в плоскость классической статистики и порождает массу проблем.

Понимание распределений кардинально меняет взгляд на окружающий мир. Коннор Танн утверждает, что популярное представление о повсеместности нормального (гауссовского) распределения в природе — это опасное заблуждение. В реальности гораздо чаще встречается логарифмически нормальное распределение, что обусловлено фактором времени и роста. Если взять размер рыб в океане одного вида, они не будут распределены нормально: у них не бывает отрицательных размеров, а основную массу составляет молодняк с длинным хвостом редких гигантских особей. Как только в систему добавляется фактор времени, исследователи неизбежно сталкиваются со степенными законами, экспоненциальными хвостами и прочими сложными структурами.

Еще один удивительный пример — закон Бенфорда, описывающий аномальную частоту появления цифр в качестве первой значащей цифры в реальных массивах данных. Если выписать любые числа из газеты, окажется, что единицы, двойки и тройки встречаются на первой позиции в разы чаще, чем семерки, восьмерки и девятки. На этом принципе построены современные алгоритмы обнаружения налогового мошенничества и фальсификации макроэкономических показателей. Например, именно с помощью закона Бенфорда в свое время было доказано, что Греция сфальсифицировала финансовые отчеты при вступлении в Евросоюз, заполнив их слишком равномерно распределенными сгенерированными числами. Физически это явление связано с масштабируемой инвариантностью вселенной и априорным распределением Джеффриса.

🎲 Парадокс кубических заводов и слабоинформативные априорные знания 53:24

Выбор априорного распределения в условиях полного незнания — одна из сложнейших проблем, которую нельзя просто игнорировать. Попытка интуитивно использовать равномерное распределение таит в себе серьезную геометрическую ловушку, иллюстрируемую мысленным экспериментом Коннора Танна о двух фабриках:

Фабрика А производит кубы, длина ребра которых выбирается случайно по равномерному распределению в диапазоне от 1 до 2 метров. Средняя длина куба составит 1,5 метра, а средний объем — $1,5^3 = 3,375$ кубических метра.
Фабрика Б производит кубы, объем которых выбирается равномерно в диапазоне от 1 до 8 кубических метров. Средний объем куба здесь составит 4,5 кубических метра, что соответствует ребру около 1,65 метра.

Субъективно условия кажутся идентичными, ведь куб с ребром 2 метра имеет объем 8 кубических метров. Однако математически равномерное распределение по длине не эквивалентно равномерному распределению по объему. Фабрика Б в среднем производит гораздо более крупные кубы. Это доказывает, что нельзя просто «накатить» равномерное распределение на случайную переменную и считать, что проблема решена — выбор метрики кардинально меняет априорное знание.

В практическом программировании Алекс и Коннор Танн предлагают опираться на прагматизм и выбирать распределения, которые облегчают жизнь численным интеграторам. Известный специалист Эндрю Гельман продвигает концепцию «слабоинформативных априорных распределений» (weakly informative priors). Данные масштабируются к стандартному виду (среднее 0, отклонение 1), а поверх параметров накладывается широкое гауссовское распределение со стандартным отклонением 5 или 10. Это не навязывает модели жестких ограничений, но сужает бесконечный диапазон интеграции от минус до плюс бесконечности до обозримых рамок, делая задачу вычислительно разрешимой. Именно эти особенности топологии легли в основу создания специализированного языка статистического программирования Stan.

🚀 Прагматичный байесианизм: от оптимизации до компьютерного зрения 1:07:09

В конце 1990-х и начале 2000-х годов байесовский подход оставался нишевым инструментом, применимым в основном там, где выборки были экстремально малы, а ставки — критически высоки (например, в военных системах целеуказания ведомств вроде DoD). Вспыхнувший затем «кризис воспроизводимости» в науке и повсеместная дискредитация p-значений заставили академическое сообщество искать альтернативы. В медицине байесовские доверительные интервалы стали стандартом, поскольку они интуитивно понятны как врачам, так и пациентам, в отличие от запутанных классических частотных метрик.

Даже в таких традиционно «частотных» сферах, как компьютерное зрение, сегодня происходят тектонические сдвиги. Профессор Макс Веллинг успешно строит модели компьютерного зрения на базе гауссовских процессов. Это необходимо в сценариях, где сбор визуальных данных происходит нерегулярно или на неструктурированных сетках, где классические сверточные нейросети (CNN) пасуют из-за отсутствия жесткой координатной привязки.

Отдельным мощным направлением стала байесовская оптимизация (Bayesian Optimization), активно применяемая в сфере автоматического машинного обучения (AutoML) для поиска гиперпараметров. Вместо тотального перебора по сетке (Grid Search) или слепого случайного поиска (Random Search), байесовский оптимизатор строит суррогатную модель над пространством параметров на основе гауссовского процесса. Алгоритм интеллектуально балансирует между исследованием неизведанных областей (exploration) и эксплуатацией уже найденных удачных зон (exploitation), действуя подобно человеку-эксперту и колоссально экономя дорогостоящее время вычислений на облачных серверах.

📱 Загадка сотового телефона и стоэтажного здания 1:31:44

В завершение беседы Коннор Танн привел классическую логическую задачу, которую он часто задает соискателям на собеседованиях для проверки их продуктового и математического мышления.

Условия задачи:

Вы работаете на заводе по производству мобильных телефонов.
В вашем распоряжении есть здание высотой 100 этажей.
Вам необходимо экспериментальным путем определить максимальный этаж, при сбрасывании с которого телефон гарантированно не разбивается.
Цель — минимизировать ожидаемое количество экспериментов (сбрасываний).

Коннор Танн отмечает, что 90% людей, не знакомых с байесовским мышлением, мгновенно выдают стандартный ответ из классического программирования: запустить бинарный поиск (Binary Search Tree). Сбросить телефон с 50 этажа, в случае неудачи проверить 25-й, в случае успеха — 75-й, сокращая неопределенность вдвое на каждом шаге. Математически это гарантирует нахождение ответа максимум за 7 попыток.

Однако, как подчеркивают участники дискуссии, такие кандидаты совершают фатальную ошибку — они полностью игнорируют свое априорное знание о физике процесса и кинетической энергии. Любой современный смартфон со стопроцентной вероятностью разлетится вдребезги при падении даже с первого или второго этажа. Таким образом, реальный байесовский подход диктует начать проверку с самого первого этажа: если он разобьется сразу, эксперимент завершится всего за одну попытку, сэкономив ресурсы компании. Люди склонны моментально забывать об априорных фактах, как только перед ними разворачивают абстрактную математическую модель.

Для тех дата-сайентистов, кто хочет глубоко погрузиться в мир вероятностного моделирования, Коннор Танн настоятельно рекомендует монументальный труд профессора Стэнфордского университета Дафны Коллер «Вероятностные графические модели» (Probabilistic Graphical Models). По его словам, эта книга способна перевернуть сознание любого инженера, объединив все разрозненные методы машинного обучения в единую, красивую и гармоничную систему.