Коннор Танн: как байесовский подход меняет современное машинное обучение

Machine Learning Street Talk 8,3 тыс. 1 ч 35 мин 10 мин 11.01.2021
Главное

В эпоху доминирования больших данных и глубоких нейронных сетей классический спор между частотным и байесовским подходами в статистике разгорается с новой силой. В рамках подкаста Machine Learning Street Talk исследователь Коннор Танн совместно с ведущими Китом Даггаром, Тимом Скарфом и Алексом подробно разобрали, почему современное машинное обучение неизбежно возвращается к истокам математики неопределенности. В центре дискуссии — вычислительные барьеры прошлого, практическая польза априорных знаний для бизнеса и глубокие философские различия в интерпретации самой природы случайных событий.

🏛️ От Сократа до Лапласа: эволюция понятия вероятности 0:11

Понятие вероятности как чего-то большего, чем просто частота повторения событий, уходит корнями глубоко в историю человечества. Еще древнегреческие философы оперировали термином icos, который Сократ описывал как «подобие истины», отделяя его от абсолютной истины, доказуемой исключительно методами дедуктивной логики. Однако практический путь цивилизации к этой концепции начался с банального подсчета частот в азартных играх.

Развитие математического аппарата шло медленно:

Как справедливо отметил выдающийся физик Джеймс Клерк Максвелл, истинная логика нашего мира кроется именно в теории вероятностей. Данный тезис подчеркивает, что на самом фундаментальном уровне вселенная управляется не жестким детерминизмом, а законами неопределенности.

📉 Почему XX век стал эпохой частотной статистики 1:56

Учитывая столь тяжелый интеллектуальный прогресс человечества — от примитивного подсчета костей до универсального вероятностного вывода, — возникает резонный вопрос: почему в начале 1900-х годов наука совершила шаг назад, временно погрузившись в догмы частотного подхода? По мнению Кита Даггара, для этого существовали две ключевые причины.

Во-первых, решение реальных физических систем методами байесовского анализа часто оказывается математически невыполнимым из-за необходимости вычисления сложнейших многомерных интегралов. Даже в таких фундаментальных областях, как общая теория относительности или квантовая механика, ученым приходится идти на колоссальные упрощения. В начале XX века прикладные математики попросту не обладали вычислительными мощностями для реализации байесовской логики, поэтому они сознательно повернули в сторону упрощенных статистических моделей.

Во-вторых, огромную роль сыграл человеческий фактор. В тот период в прикладной науке доминировала крайне авторитарная, а по оценкам некоторых современников, даже агрессивная фигура британского статистика и генетика сэра Рональда Фишера. Успешное внедрение частотных методов в генетику в сочетании с жестким авторитетом Фишера создало своеобразную «гравитационную воронку», утянувшую целые поколения ученых в жесткие рамки частотной парадигмы.

Оценивая этот исторический период, исполнительный директор Института Алана Тьюринга сэр Эдриан Смит высказался весьма устрожающе. По его мнению, любой подход к научному выводу, пытающийся легитимизировать фиксированный ответ в условиях сложной неопределенности, представляет собой тоталитарную пародию на рациональный процесс обучения. Рано или поздно классическая статистика ломается под грузом системной сложности, заставляя исследователей возвращаться к математике неопределенности.

🔄 Возрождение байесовских методов в эпоху вычислительного изобилия 3:58

Сегодня условия кардинально изменились. Развитие таких дисциплин, как теория информации, дифференциальная геометрия и теоретическая физика, вкупе с ростом доступной компьютерной мощности создали идеальную почву для ренессанса байесовских методов. Алгоритмы вроде ядерных методов, эмпирического Байеса и, в особенности, метода Монте-Карло по схеме марковских цепей (MCMC) позволили преодолеть старые вычислительные ограничения.

Гость подкаста, физик и старший дата-сайентист Коннор Танн, окончивший Кембриджский университет со степенью в области экспериментальной и теоретической физики и магистратурой по астрофизике элементарных частиц, признается, что сам стал «новообращенным» байесовцем далеко не сразу. Как и большинство академических специалистов, в университете он изучал исключительно частотную классику: проверку гипотез, t-критерии и стандартные аппроксимации. Однако столкновение с реальными промышленными задачами быстро вскрыло ограниченность этих инструментов.

Поворотным моментом в карьере Коннора Танна стала совместная работа с коллегой-физиком по имени Анджум. В своих отчетах Анджум вместо стандартных тестов гипотез постоянно использовал сэмплирование MCMC и периоды «разогрева» (burn-in) модели. Поначалу это казалось Коннору Танну абсолютно непонятной экзотикой, но результаты вычислений Анджума раз за разом с поразительной точностью совпадали со здравым смыслом и реальным положением дел, в то время как классический частотный подход давал сбои. Ведущим фактором перехода в «байесовскую парадигму» послужила необходимость работы с малыми наборами данных при наличии огромного пласта накопленных физических и инженерных знаний.

🧠 Истинная уверенность против «костылей» машинного обучения 8:13

Главное преимущество байесовского подхода перед традиционными методами заключается в возможности строго математически зафиксировать и использовать априорные убеждения (priors). В реальной жизни человек, видя новые данные, не забывает мгновенно всё, что он знал о мире ранее. Частотная же статистика демонстрирует близорукую реакцию, фокусируясь исключительно на изолированном свежем фрагменте информации, что регулярно приводит к неверным выводам.

В современном машинном обучении разработчики часто пытаются имитировать оценку уверенности модели с помощью различных ухищрений. Например, в бинарных классификаторах или нейронных сетях выходы масштабируются через функцию сигмоиды, выдавая значение от 0 до 1. Принято считать, что чем ближе значение к единице, тем выше уверенность алгоритма. Существуют и более сложные надстройки, такие как трансдуктивные машины уверенности (Transductive Confidence Machines), вычисляющие так называемую «меру странности» объекта.

Однако Кит Даггар подчеркивает, что все эти подходы являются произвольными инженерными «костылями» (hacks), выдуманными из головы или отобранными методом перебора сотен вариантов. Напротив, байесовский метод напрямую и строго выводится из фундаментального правила произведения теории вероятностей:

$$P(A \cap B) = P(A|B) \cdot P(B)$$

Отрицать теорему Байеса — значит отрицать само правило произведения, с чем не поспорит ни один математик. Этот подход дает легитимную математическую основу для последовательного объединения различных массивов данных.

С другой стороны, Коннор Танн выступил в защиту инженерных трюков. Он отметил, что многие эмпирические приемы в машинном обучении, которые инженеры используют просто потому, что они работают, впоследствии можно строго обосновать через байесовский фреймворк. Самые яркие примеры:

📊 Математика распределений: почему природа не любит нормальность 15:15

В любой модели всегда присутствуют скрытые допущения и априорные ограничения. Как отмечал в недавнем интервью профессор Макс Веллинг, внедрение более сильных индуктивных априорных допущений делает алгоритмы значительно более эффективными с точки зрения объема выборки (sample efficient). Примером может служить использование гауссовских процессов (Gaussian Processes) вместо ядерной ридж-регрессии. В то время как классическая регрессия выдает лишь точечное предсказание функции, гауссовский процесс возвращает полноценное распределение с четким расчетом стандартного отклонения в каждой точке. В реальном бизнесе знание степени своей неуверенности часто ценится гораздо выше, чем само предсказание.

Байесовский подход учит, что сумма знаний после эксперимента выражается в виде распределения, а не одного конкретного числа. Сжатие этой информации до точечной статистики (среднего, моды или медианы) переводит исследователя в плоскость классической статистики и порождает массу проблем.

Понимание распределений кардинально меняет взгляд на окружающий мир. Коннор Танн утверждает, что популярное представление о повсеместности нормального (гауссовского) распределения в природе — это опасное заблуждение. В реальности гораздо чаще встречается логарифмически нормальное распределение, что обусловлено фактором времени и роста. Если взять размер рыб в океане одного вида, они не будут распределены нормально: у них не бывает отрицательных размеров, а основную массу составляет молодняк с длинным хвостом редких гигантских особей. Как только в систему добавляется фактор времени, исследователи неизбежно сталкиваются со степенными законами, экспоненциальными хвостами и прочими сложными структурами.

Еще один удивительный пример — закон Бенфорда, описывающий аномальную частоту появления цифр в качестве первой значащей цифры в реальных массивах данных. Если выписать любые числа из газеты, окажется, что единицы, двойки и тройки встречаются на первой позиции в разы чаще, чем семерки, восьмерки и девятки. На этом принципе построены современные алгоритмы обнаружения налогового мошенничества и фальсификации макроэкономических показателей. Например, именно с помощью закона Бенфорда в свое время было доказано, что Греция сфальсифицировала финансовые отчеты при вступлении в Евросоюз, заполнив их слишком равномерно распределенными сгенерированными числами. Физически это явление связано с масштабируемой инвариантностью вселенной и априорным распределением Джеффриса.

🎲 Парадокс кубических заводов и слабоинформативные априорные знания 53:24

Выбор априорного распределения в условиях полного незнания — одна из сложнейших проблем, которую нельзя просто игнорировать. Попытка интуитивно использовать равномерное распределение таит в себе серьезную геометрическую ловушку, иллюстрируемую мысленным экспериментом Коннора Танна о двух фабриках:

Субъективно условия кажутся идентичными, ведь куб с ребром 2 метра имеет объем 8 кубических метров. Однако математически равномерное распределение по длине не эквивалентно равномерному распределению по объему. Фабрика Б в среднем производит гораздо более крупные кубы. Это доказывает, что нельзя просто «накатить» равномерное распределение на случайную переменную и считать, что проблема решена — выбор метрики кардинально меняет априорное знание.

В практическом программировании Алекс и Коннор Танн предлагают опираться на прагматизм и выбирать распределения, которые облегчают жизнь численным интеграторам. Известный специалист Эндрю Гельман продвигает концепцию «слабоинформативных априорных распределений» (weakly informative priors). Данные масштабируются к стандартному виду (среднее 0, отклонение 1), а поверх параметров накладывается широкое гауссовское распределение со стандартным отклонением 5 или 10. Это не навязывает модели жестких ограничений, но сужает бесконечный диапазон интеграции от минус до плюс бесконечности до обозримых рамок, делая задачу вычислительно разрешимой. Именно эти особенности топологии легли в основу создания специализированного языка статистического программирования Stan.

🚀 Прагматичный байесианизм: от оптимизации до компьютерного зрения 1:07:09

В конце 1990-х и начале 2000-х годов байесовский подход оставался нишевым инструментом, применимым в основном там, где выборки были экстремально малы, а ставки — критически высоки (например, в военных системах целеуказания ведомств вроде DoD). Вспыхнувший затем «кризис воспроизводимости» в науке и повсеместная дискредитация p-значений заставили академическое сообщество искать альтернативы. В медицине байесовские доверительные интервалы стали стандартом, поскольку они интуитивно понятны как врачам, так и пациентам, в отличие от запутанных классических частотных метрик.

Даже в таких традиционно «частотных» сферах, как компьютерное зрение, сегодня происходят тектонические сдвиги. Профессор Макс Веллинг успешно строит модели компьютерного зрения на базе гауссовских процессов. Это необходимо в сценариях, где сбор визуальных данных происходит нерегулярно или на неструктурированных сетках, где классические сверточные нейросети (CNN) пасуют из-за отсутствия жесткой координатной привязки.

Отдельным мощным направлением стала байесовская оптимизация (Bayesian Optimization), активно применяемая в сфере автоматического машинного обучения (AutoML) для поиска гиперпараметров. Вместо тотального перебора по сетке (Grid Search) или слепого случайного поиска (Random Search), байесовский оптимизатор строит суррогатную модель над пространством параметров на основе гауссовского процесса. Алгоритм интеллектуально балансирует между исследованием неизведанных областей (exploration) и эксплуатацией уже найденных удачных зон (exploitation), действуя подобно человеку-эксперту и колоссально экономя дорогостоящее время вычислений на облачных серверах.

📱 Загадка сотового телефона и стоэтажного здания 1:31:44

В завершение беседы Коннор Танн привел классическую логическую задачу, которую он часто задает соискателям на собеседованиях для проверки их продуктового и математического мышления.

Условия задачи:

Коннор Танн отмечает, что 90% людей, не знакомых с байесовским мышлением, мгновенно выдают стандартный ответ из классического программирования: запустить бинарный поиск (Binary Search Tree). Сбросить телефон с 50 этажа, в случае неудачи проверить 25-й, в случае успеха — 75-й, сокращая неопределенность вдвое на каждом шаге. Математически это гарантирует нахождение ответа максимум за 7 попыток.

Однако, как подчеркивают участники дискуссии, такие кандидаты совершают фатальную ошибку — они полностью игнорируют свое априорное знание о физике процесса и кинетической энергии. Любой современный смартфон со стопроцентной вероятностью разлетится вдребезги при падении даже с первого или второго этажа. Таким образом, реальный байесовский подход диктует начать проверку с самого первого этажа: если он разобьется сразу, эксперимент завершится всего за одну попытку, сэкономив ресурсы компании. Люди склонны моментально забывать об априорных фактах, как только перед ними разворачивают абстрактную математическую модель.

Для тех дата-сайентистов, кто хочет глубоко погрузиться в мир вероятностного моделирования, Коннор Танн настоятельно рекомендует монументальный труд профессора Стэнфордского университета Дафны Коллер «Вероятностные графические модели» (Probabilistic Graphical Models). По его словам, эта книга способна перевернуть сознание любого инженера, объединив все разрозненные методы машинного обучения в единую, красивую и гармоничную систему.

💬 Цитаты

«Истинная логика этого мира находится в теории вероятностей.»

Кит Даггар 1:42

«Когда вам нужно сделать что-то быстро, выбирайте частотный подход, но если нужно сделать правильно — используйте байесовский.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Априорная вероятность (Prior)
Изначальное распределение вероятностей, отражающее знания о системе до получения новых экспериментальных данных.
Апостериорная вероятность (Posterior)
Обновленное распределение вероятностей параметров модели, полученное после учета новых данных через теорему Байеса.
Метод Монте-Карло по схеме марковских цепей (MCMC)
Класс алгоритмов для моделирования сложных вероятностных распределений путем последовательного случайного выбора значений.
Гауссовский процесс
Вероятностная модель, используемая в машинном обучении для аппроксимации функций и точного расчета неопределенности предсказаний.
Регуляризация L2
Метод предотвращения переобучения модели путем добавления штрафа за большие значения коэффициентов, эквивалентный гауссовскому априорному распределению.
📊 Цифры
🗓 Хронология
  1. Середина 1600-х годов Пьер Ферма и Блез Паскаль формулируют базовые принципы теории вероятностей.
  2. Начало 1800-х годов Пьер-Симон Лаплас расширяет применение вероятностей до уровня научного вывода.
  3. Начало 1900-х годов Статистика временно смещается в сторону частотного подхода под влиянием Рональда Фишера.
  4. 1940-е годы Физик Ричард Кокс публикует работу, исследующую концепцию вероятности как меры субъективного знания.
  5. 2013 год Эксперимент с нейтрино, якобы превысившими скорость света, иллюстрирует важность сильного априорного знания физиков.
⚖️ Другая сторона
Искусственный интеллект Коннор Танн байесовский анализ Machine Learning Street Talk метод Монте-Карло гауссовские процессы