Педро Домингос доказал математическое тождество нейросетей и метода опорных векторов

В новом выпуске программы Eye on AI известный эксперт в области искусственного интеллекта и машинного обучения Педро Домингос (Pedro Domingos) подробно разбирает концептуальные основы двух ключевых «племен» в сфере ИИ — байесовцев и аналогизаторов. Профессор Вашингтонского университета анализирует их исторические корни, математические инструменты и внутренние противоречия, а также объясняет, каким образом современные нейросети, вопреки расхожему мнению, тайно используют классические механизмы аналогового обучения. На основе своей знаменитой концепции «главного алгоритма» исследователь показывает, как фундаментальные математические принципы определяют эволюцию современных технологий ИИ.

🏛️ Племя байесовцев: догма, субъективная вероятность и война статистических школ 3:33

Педро Домингос, профессор компьютерных наук Университета Вашингтона и автор научно-популярного бестселлера «Главный алгоритм», занимается исследованиями искусственного интеллекта с 1998 года. По его классификации, байесовцы представляют собой самое ортодоксальное и «племенное» сообщество из всех пяти фундаментальных школ машинногольного обучения. Ученый с иронией отмечает, что приверженцы этого подхода глубоко убеждены: либо ваш метод строится на байесовских принципах, либо вы в корне неправы.

Исторически это племя вышло из недр математической статистики. Последние сто лет в статистической науке доминировала так называемая частотная школа (фреквентисты), из-за чего байесовцы долгое время оставались притесняемым меньшинством. Как утверждает Домингос, этот исторический контекст породил у них своеобразный комплекс превосходства и фанатичное стремление к чистоте методологии.

Главный раскол между школами кроется в самом определении того, что представляет собой вероятность. Эксперт подчеркивает, что, несмотря на миллионы написанных научных трудов, человечество до сих пор до конца не понимает истинную суть вероятности, которая остается крайне ускользающим понятием.

Существуют два основных взгляда на эту проблему:

Частотный подход: определяет вероятность как предел частоты при бесконечном числе испытаний. Например, монета выпадает орлом в 50% случаев, если подбрасывать ее бесконечно много раз. Однако этот подход пасует перед уникальными событиями: невозможно провести бесконечное количество выборов с участием Дональда Трампа и Камалы Харрис, чтобы рассчитать шансы фреквентистскими методами.
Байесовский подход: постулирует, что вероятность изначально субъективна. По словам Домингоса, с этой точки зрения вероятность — это просто степень вашей личной уверенности в событии (например, оценка чьих-то шансов на выборах в 55%). Байесовская математика не диктует, какими должны быть ваши исходные убеждения, но жестко предписывает, как именно их нужно изменять при получении новых данных.

📐 Теорема Лапласа под вывеской Бейеса и «байесовская мясорубка» 6:48

В основе байесовского машинного обучения лежит знаменитая теорема Бейеса. Домингос указывает на историческую иронию: сам преподобный Томас Бейес, английский протестантский священник XVIII века, увлекавшийся математикой как хобби, сформулировал лишь протоверсию этого принципа для расчетов в азартных играх. В строгом математическом виде теорему вывел Пьер-Симон Лаплас, поэтому, по мнению профессора, технологию следовало бы назвать «лапласовским обучением».

Сама теорема математически тривиальна и является следствием определения условной вероятности. Частотные статистики полностью согласны с ней и изучают ее на базовых курсах. Скандал и жесткое сопротивление научного сообщества начинаются там, где байесовцы заявляют, что в качестве исходной (априорной) вероятности можно брать абсолютно любое субъективное предположение. Фреквентисты обвиняют их в подрыве объективности науки, хотя, как считает Домингос, сами частотники точно так же делают скрытые неочевидные допущения.

Механизм работы байесовского вывода устроен следующим образом:

Априорная вероятность (Prior): исходное убеждение исследователя до появления улик (например, вероятность того, что конкретное письмо является спамом).
Правдоподобие (Likelihood): вероятность получить наблюдаемые данные, если исходная модель верна.
Апостериорная вероятность (Posterior): обновленное убеждение, рассчитываемое как произведение априорной вероятности на правдоподобие, разделенное на нормировочный коэффициент.

Этот процесс цикличен: полученная апостериорная вероятность становится априорной для следующего шага или следующего дня торгов на фондовой бирже. В сообществе существует устойчивое выражение «крутить байесовскую мясорубку» (turning the Bayesian crank): исследователь закладывает аксиомы, подает данные, прокручивает математический аппарат и получает строго обоснованный результат. Байесовцы принципиально строят ИИ из чистых логических аксиом, отвергая апелляции к хаотичной структуре человеческого мозга или эволюции, которую они считают набором случайных «хаков».

🕸️ Комбинаторный взрыв и укрощение распределений Джудой Перлом 13:37

Долгое время байесовская статистика оставалась на обочине, поскольку ее расчеты для нетривиальных задач требовали колоссальных вычислительных мощностей, которых не существовало. Ситуация радикально изменилась с появлением байесовских сетей, за разработку которых ученый Джуда Перл (Judea Pearl) получил престижную премию Тьюринга.

Проблема классического вероятностного подхода заключалась в вычислительной непереносимости. Домингос приводит наглядный пример: если у нас есть всего 100 бинарных переменных (наличие лихорадки, диабета, вождение автомобиля и т.д.), то общее число возможных состояний системы составит $2^{100}$. Для хранения такого объема распределения вероятностей во Вселенной не хватит атомов.

Решением стало использование свойства условной независимости. В реальном мире далеко не все процессы связаны напрямую: например, вероятность того, что профессор курит, никак не зависит от того, увидит ли кто-то завтра акулу в Тихом океане. Но гораздо важнее концепция условной независимости, когда события А и Б независимы при условии знания события В. По оценке Домингоса, на этом физическом принципе локальности держится вся Вселенная, без него познание и когнитивная деятельность были бы невозможны.

Байесовская сеть представляет собой направленный граф, где стрелками указаны только прямые причинно-следственные связи. В медицинской диагностике это позволяет не свявать каждый симптом с каждой болезнью в мире:

Стрелка идет от диабета к высокому уровню сахара в крови.
Стрелка от рака мозга к уровню сахара отсутствует.
Параметры рассчитываются только для узла и его непосредственных «родителей». Таблица вероятностей для лихорадки строится только на основе вызывающих ее причин, что сжимает экспоненциальную матрицу из $2^{100}$ строк до скромной таблицы из четырех строк для двух симптомов-родителей.

Принципиальное отличие байесовцев от остальных школ ИИ заключается в том, что они вообще не ищут «единственно верную» модель (одну нейросеть или одно дерево решений). По их логике, верных моделей нет, но у каждой есть своя вероятность. Чтобы сделать прогноз, байесовский алгоритм рассчитывает вероятности для абсолютно всех возможных моделей и выводит среднее арифметическое по ним. Профессор признает теоретическую красоту этого подхода, но считает его огромной тратой времени на практике, поскольку число моделей может расти по двойной экспоненте $2^{2^n}$. Тем не менее, до прихода эпохи глубокого обучения именно гигантская байесовская сеть с миллионами узлов-слов управляла всей системой размещения рекламы Google, генерируя ключевой доход компании.

🌊 Практическое применение: от поиска подлодок до превосходства над врачами 22:10

Педро Домингос утверждает, что экспертные медицинские системы ИИ еще в 1970-х годах справлялись с диагностикой лучше живых врачей в тех узких областях, для которых создавались. Причина, по которой они не внедрились повсеместно — жесткое сопротивление медицинского сообщества, выступающего в роли административных гейткиперов.

Люди, включая профессиональных медиков, катастрофически плохо понимают теорему Бейеса и не умеют правильно соотносить симптомы с априорной частотой заболеваний. Обнаружив симптомы редкой болезни, врач склонен драматически завышать ее вероятность, забывая, что базовый шанс заболеть ею ничтожно мал.

Байесовское машинное обучение незаменимо в условиях, когда критически важно точно рассчитывать неопределенность, а не просто выдавать бинарный ответ. Классическим примером является поисково-спасательная операция по обнаружению пропавшей американской атомной подводной лодки в Тихом океане. В условиях огромной акватории случайный поиск бесполезен. Байесовский подход позволяет:

Сформировать карту исходного априорного распределения вероятностей на основе стандартных маршрутов субмарины.
Шаг за шагом накладывать на нее крайне слабые, косвенные улики — данные о прошедшем шторме или едва уловимый пинг сонара.
Символьный ИИ отбросил бы эти шумы как логически бесполезные, но байесовский метод аккумулирует их, постепенно повышая вероятность конкретного квадрата на карте, пока координаты цели не станут очевидными.

В ситуациях с колоссальным объемом данных байесовский подход становится избыточным и слишком дорогим, уступая место более простым методам. Но при остром дефиците информации без него не обойтись. Фреквентистский принцип максимального правдоподобия (maximum likelihood principle) в условиях нехватки данных приводит к абсурдным результатам: если подбросить монету один раз и выпадет орел, частотный алгоритм заявит, что вероятность выпадения орла равна 100%. Байесовский ИИ защищен от таких ошибок жестко заданным априорным балансом 50/50.

Главным вычислительным локомотивом этого направления стал алгоритм Марковских цепей Монте-Карло (MCMC). Созданный учеными в рамках Манхэттенского проекта для симуляции поведения нейтронов при ядерных реакциях, сегодня MCMC входит в топ-10 самых используемых алгоритмов в истории мировой науки. Он применяется далеко за пределами ИИ — в физике, экономике и чистой статистике.

🧠 Племя аналогизаторов: познание через метафоры 31:47

В полную противоположность монолитным байесовцам, племя аналогизаторов является самым раздробленным и лишенным единой идентичности сообществом в сфере ИИ. Домингос искусственно объединил под этим крылом разные группы исследователей, которые зачастую даже не общаются между собой, но разделяют общий фундаментальный тезис: когнитивная деятельность — это и есть процесс построения аналогий.

Ярким идеологом этого направления выступает Дуглас Хофштадтер, автор культовой книги «Гёдель, Эсчер, Бах». Профессор замечает забавный парадокс: эта работа, написанная в 1979 году на пике доминирования символьного ИИ, формально посвящена математической логике, но сама до краев наполнена изящными аналогиями между музыкой Баха, графикой Эшера и теоремами Гёделя. В своей более свежей книге «Поверхности и сущности» Хофштадтер прямо провозглашает аналогию главным «топливом и огнем» человеческого разума. По его мнению, все — от понимания простых слов до великих открытий Альберта Эйнштейна — строится на аналоговом переносе. Из всех пяти школ ИИ именно концепция аналогий наиболее интуитивно понятна обычным людям, так как каждый человек постоянно использует ее в повседневной жизни.

В психологической науке это направление развивала Дидре Гентнер (Dedre Gentner), предложившая теорию картирования структур (structure mapping). Суть метода — перенос архитектоники из одной известной области в новую. Именно так Нильс Бор создал первую модель атома, спроецировав на него структуру Солнечной системы, где ядро стало Солнцем, а электроны — планетами. Физически аналогия была некорректной, но именно она позволила запустить развитие квантовой механики.

На практике принципы аналогового обучения лежат в основе систем рассуждения на основе прецедентов (Case-based reasoning). Когда пользователь звонит в службу поддержки Microsoft с жалобой на принтер, оператор не строит логических цепочек. Специализированный ИИ ищет в базе данных наиболее похожий прошлый инцидент, анализирует мелкие различия и выдает готовое, проверенное временем решение.

🏎️ Алгоритм ближайшего соседа и «сингулярность 1951 года» 36:23

Простейшим и одновременно самым мощным примером аналогового обучения является алгоритм ближайшего соседа (Nearest Neighbor), родившийся в области распознавания образов еще в 1950-х годах. Профессор иронизирует, что если оценивать технологический прогресс исключительно по способности алгоритмов масштабироваться от объема данных, то технологическая сингулярность и общий искусственный интеллект (AGI) были достигнуты еще в 1951 году, в момент изобретения этого метода.

Домингос иллюстрирует суть алгоритма историей Фрэнка Абигнейла-младшего, знаменитого мошенника из фильма «Поймай меня, если сможешь». Фальсифицировав диплом Гарварда, Абигнейл успешно работал главврачом в больнице штата Джорджия и стал самым популярным доктором, вообще не зная медицины. Все, что он делал — заглядывал в медицинские карты прошлых лет, находил пациента с максимально похошими симптомами и полностью копировал диагноз и назначения.

Математически доказано, что при наличии репрезентативной базы данных такой подход гарантирует абсолютно точный результат. В отличие от классических статистических моделей (как частотных, так и байесовских), которые при достижении определенного лимита данных упираются в потолок своей математической емкости и перестают улучшаться, метод ближайшего соседа обладает уникальным свойством:

«Алгоритм ближайшего соседа имеет бесконечную емкость. Чем больше данных вы ему даете, тем лучше он становится».

🛡️ Метод опорных векторов (SVM) и эпоха доминирования ядерных машин 38:36

В первое десятилетие XXI века (с 2000 по 2010 годы) на ведущих мировых конференциях по машинному обучению, таких как ICML и NIPS, доклады по нейросетям практически отсутствовали. Научный мир был полностью захвачен ядерными машинами, а именно — методом опорных векторов (Support Vector Machines, SVM). SVM представляет собой математически изощренную, глубоко проработанную модификацию алгоритма ближайшего соседа.

Профессор призывает разработчиков не тратить недели на обучение громоздких нейросетей там, где задача изящно и быстро решается с помощью SVM. Профессор указывает на циклический мотив в истории ИИ: нейросети регулярно входят в моду благодаря своей интуитивной привлекательности, но сталкиваются с хаосом при оптимизации, после чего исследователи создают их аналоговую, более простую версию.

Хрестоматийным примером, по словам Домингоса, являются сети Хопфилда, за работу над которыми Джон Хопфилд (John Hopfield) получил Нобелевскую премию по физике. На пике их популярности в 1980-х годах ученые из MIT доказали, что эта сложная динамическая система с энергетическими аттракторами математически эквивалентна банальному алгоритму ближайшего соседа, где мерой расстояния служит количество несовпадающих битов (расстояние Хэмминга). Сотни физиков строили громоздкие теории вокруг сетей Хопфилда, которые на поверку оказались простейшим аналоговым поиском прецедентов.

Причина технологического превосходства метода опорных векторов над нейросетями в тот период крылась в фундаментальной математике:

Нейросети: представляют собой задачу невыпуклой оптимизации (non-convex optimization) с бесчисленным множеством локальных экстремумов. Запуск градиентного спуска каждый раз приводит к разным результатам в зависимости от случайной инициализации весов. Настройка нейросети, по образному выражению Домингоса, похожа на попытку удержать карандаш в вертикальном положении на кончике пальца.
Метод SVM: сводится к задаче выпуклой оптимизации (convex optimization). В ней существует строго один глобальный оптимум. При нажатии кнопки алгоритм гарантированно находит идеальное решение, которое будет абсолютно одинаковым для любого исследователя на любом компьютере.

Технология SVM была разработана на базе Bell Labs в 1990-х годах советским и американским математиком Владимиром Вапником. Ирония судьбы заключалась в том, что Вапник работал в одной исследовательской группе с Яном Лекуном, который в те же годы кропотливо создавал первые сверточные нейросети (ConvNets) для распознавания рукописных цифр. Когда сугубо теоретический и строго математический алгоритм SVM применили к той же базе цифр, он «из коробки», без многолетней инженерной настройки, показал точность на уровне сложнейших сетей Лекуна, повергнув коллег в шок.

Математическая суть SVM заключается в поиске разделяющей границы максимального зазора (max margin frontier) между классами данных. Домингос предлагает географическую аналогию: если вам нужно провести границу между двумя государствами на карте, зная только координаты городов, самым безопасным решением будет проложить рубеж как можно дальше от любого населенного пункта. SVM вычисляет веса объектов таким образом, чтобы создать вокруг разделяющей границы максимально широкую «демилитаризованную зону», свободную от прецедентов. Это делает метод невероятно устойчивым к переобучению в пространствах высокой размерности (например, при классификации текстов, где каждое уникальное слово становится отдельным измерением), преодолевая классическое «проклятие размерности» алгоритма ближайшего соседа.

🔗 Тайный союз Хинтона и Вапника: как нейросети превращаются в ядерные машины 50:55

Внутри сообщества аналогизаторов сосуществуют два лагеря: строгие математики-теоретики (Neats), развивающие SVM, и приверженцы эмпирического психологического подхода (Scruffies), изучающие когнитивные метафоры. Между ними практически нет точек соприкосновения. Более того, на первый взгляд кажется абсурдным называть аналогизаторами представителей коннекционизма (нейросетевой школы), ведь они копируют биологию мозга, а не ищут прецеденты.

Однако Педро Домингос раскрывает глубинную конвергенцию этих подходов. Патриарх глубокого обучения Джеффри Хинтон (Geoffrey Hinton) всегда публично утверждал, что нейронные сети фундаментально превосходят символьный ИИ именно потому, что способны «мыслить аналогиями» и плавно обходить логическую хрупкость. При этом Хинтон никогда не давал строгого математического описания того, как именно распределенная матрица весов осуществляет этот аналоговый перенос.

В своем недавнем исследовании Домингос с коллегами заполнил этот теоретический пробел и доказал фундаментальную теорему. Математический анализ показал:

Любая языковая модель или нейросеть, обученная с помощью классического алгоритма градиентного спуска, эквивалентна ядерной машине (kernel machine) со специфической функцией ядра, представляющей собой скалярное произведение градиентов.

Это означает, что в процессе обучения нейросеть не выводит абстрактные правила, а неявным образом упаковывает и сохраняет внутри своих весов абсолютно все обучающие прецеденты. Когда современная LLM-модель (например, архитектура Transformer) отвечает на сложный запрос пользователя, ее внутренний математический аппарат прямо сейчас вычисляет степень сходства новой задачи с массивом сохраненных в памяти обучающих примеров. Таким образом, современный триумф нейросетей — это скрытый триумф аналогового обучения. Две противоборствующие школы ИИ на самом глубоком математическом уровне оказались тождественным отражением друг друга.