Пол Лессар о кризисе бенчмарков и математической строгости в ИИ

В эпоху стремительного развития искусственного интеллекта вопрос о природе его «знаний» и критериях истины становится центральным как для математиков, так и для инженеров. В новом выпуске подкаста Machine Learning Street Talk ведущие Тим и Кит обсуждают с доктором Полом Лессаром, специалистом по теории категорий, фундаментальные различия между строгими математическими доказательствами и прагматичным миром глубокого обучения. Собеседники пытаются нащупать мост между платонизмом и конструктивизмом, разбирают внутреннюю физику трансформеров и объясняют, почему современные нейросети похожи на зыбкие песчаные замки.

🏰 Песчаные замки глубокого обучения: в поисках критериев истины 0:00

В чистой математике существует невероятно жестокий формальный критерий истинности — определение и строгое доказательство. Однако в машинном обучении (ML) этот подход неприменим, из-за чего исследователям приходится конструировать альтернативные инструменты проверки. Как отмечает Пол Лессар, долгое время эту роль успешно выполняли бенчмарки.

Тем не менее, текущее состояние индустрии ИИ вызывает у экспертов скепсис. Ведущий подкаста Кит приводит метафору, согласно которой модели глубокого обучения строят «песчаные замки». По его мнению, нейросети представляют собой структуры с избыточным количеством степеней свободы. Стоит слегка подтолкнуть такой замок, и он мгновенно разрушается, поскольку внутри него нет прочной опорной структуры. Кит подчеркивает, что проблема даже не в отсутствии структуры как таковой, а в том, что в массиве песка одновременно представлены абсолютно все возможные структуры. Человек может направлять модель, заставляя её имитировать упорядоченное поведение, но обладание всеми структурами сразу эквивалентно полному их отсутствию.

В контексте этого кризиса собеседники обращаются к вечному философскому спору между конструктивизмом и платонизмом. Тим указывает, что многие исследователи верят в существование некой фундаментальной генерирующей функции Вселенной. Человеку мир кажется калейдоскопом локальных закономерностей без единой связи, но нашему разуму свойственно воображать универсальный платонический идеал за этой «иллюзией телеологии» (целесообразности).

Пол Лессар, напротив, склоняется к конструктивистскому видению. По его мнению, реальный мир фундаментально конструктивен, однако процессы в нём обладают достаточной регулярностью, чтобы создавать устойчивую иллюзию идеала. Развитие подобных платонических иллюзий — это как раз тот механизм, благодаря которому в мире вообще возникает структура.

В качестве аналогии Лессар ссылается на теоретическую биологию 1970-х годов, где активно исследовалось понятие метаболизма как антисипативного (предвосхищающего) процесса. Метаболизм представляет собой химический цикл, который начинает функционировать до получения внешних ресурсов, как бы «ожидая», что они продолжат поступать для поддержания его работы.

Кит считает метафору метаболизма прекрасной, добавляя, что человеческий мозг аналогично называют «машиной для предсказаний». По словам Кита, биологи часто наделяют понятие «информации» первородной объяснительной силой, что на самом деле лишь отражает ограниченность нашего когнитивного горизонта. Мы вынуждены дробить мир на микроскопические абстракции, чтобы понять их, упуская глобальную картину.

Лессар соглашается и добавляет, что изобретение сущностей, которых изначально нет в физическом мире, является отличной стратегией решения проблем. Примером служит понятие «приспособленности» (fitness) в биологии. В реальности такой физической величины не существует, но рассуждения о ней значительно упрощают построение научных нарративов. Точно так же в макроскопическом мире абстракция статистического распределения популяции вида не является онтологически реальной — реален лишь конкретный набор образцов (семплинг), однако объекты ведут себя так, будто распределение существует. Пол формулирует свое отношение к этим тупикам философии фразой: «Нужно думать об этом достаточно, чтобы быть наэлектризованным, но не быть угрожаемым».

🧮 Теория категорий и «наука о бенчмарках» 5:20

Перейдя полтора года назад из чистой математики в сферу машинного обучения, Пол Лессар столкнулся с вопросом о том, как его базовые знания — в частности, теория категорий — могут помочь ИИ справиться с «давлением реальности». По мнению Лессара, наивные попытки прямого переноса категориальных абстракций в ML, равно как и повсеместная одержимость сложными архитектурами сетей, скорее всего, ошибочны. Настоящая ценность теории категорий сейчас заключается в каталогизации и индексации экспериментов, которые помогают нащупать точные границы между эффективными и неэффективными архитектурами.

Лессар предлагает смотреть на нейросети как на алгебру для построения параметрических моделей. В этой системе стохастические процессы, такие как стохастический градиентный спуск (SGD), заставляют модель релаксировать к состоянию с наименьшей энергией, которая затем аппроксимирует поданные на вход данные. Роль теории категорий здесь — формализовать саму эту «алгебру конструирования», предоставляя исследователям строгий язык для описания допустимых способов сборки систем.

В своих поисках Лессар опирается на свежую книгу Морица Харта «Развивающаяся наука о бенчмарках» (The Emerging Science of Benchmarks). Лессар подчеркивает, что Харт в первой же главе описывает машинное обучение как радикальный синтез методологического принципа Пола Фейерабенда «всё дозволено» (anything goes). В середине XX века Фейерабенд, Томас Кун и Карл Поппер перевернули представления о научном методе, доказав, что реальная наука движется не идеализированными правилами, а сменой парадигм, революциями и интуитивными озарениями ученых, где единственным критерием выступает их «серьезность».

Машинное обучение, по мнению Лессара, восприняло лозунг «всё дозволено» со всей серьезностью: никто в индустрии не имеет четкого эстетического критерия того, что считать адекватным описанием работающей модели. По сути, бенчмарки стали суррогатом математической истины. Раньше при тестировании семейства моделей на разных бенчмарках конкретные цифры точности различались, но ранжирование моделей (кто лучше, а кто хуже) строго сохранялось. Сегодня же, как утверждает Лессар, эта синхронность разрушена.

Из этого факта гость делает два возможных вывода:

Либо все «простые» задачи для моделей исчерпаны, и нам больше не стоит ожидать сохранения относительной производительности алгоритмов на разных тестах.
Либо сам подход, полностью завязанный на бенчмарках, окончательно сломался.

Лессар разделяет позицию Харта: методология бенчмарков зашла в тупик, и сообществу необходимо выработать эстетические критерии более высокого порядка для объяснения причин работы алгоритмов.

Тим вспоминает свой разговор с лингвистом Ноамом Хомским, который в шутку называл машинное обучение «бульдозером, который отлично чистит снег, но не имеет отношения к теории науки». Философ Дэниел Деннет в беседе с Тимом также подчеркивал, что суть науки заключается в генерации объяснений и ответов на вопрос «почему?». Текущие модели глубокого обучения, лишенные внутренней каузальной структуры, эти ответы давать не способны.

📉 Разреженные зависимости: почему работают трансформеры и Chain of Thought 14:01

В качестве контраргумента тезису о полной хаотичности нейросетей Пол Лессар приводит доклад с недавней конференции по структурному ИИ в Шанхае, организованной Институтом Чи (Shanghai Qi Institute). Там был представлен математический анализ работы метода «цепочки рассуждений» (Chain of Thought, CoT) с позиций статистической теории обучения. Лессар отмечает, что этот доклад привлек его отсутствием гуманистических или антропоморфных спекуляций о якобы активации у ИИ «Системы 2» (осознанного мышления по Канеману), которую сам Пол считает сомнительной концепцией.

Математическое объяснение феномена выглядит следующим образом:

Архитектура трансформеров на корпусах естественного языка на практике многократно превосходит худшие теоретические прогнозы по времени обучения распределений последовательностей.
Это происходит потому, что в естественном языке с высокой вероятностью можно предсказать следующий токен, опираясь на относительно небольшое число предшествующих ему элементов.
Трансформеры идеально адаптированы для мгновенного выявления таких «разреженных зависимостей» (sparse dependencies).

Экстраполируя этот принцип на логические задачи, Chain of Thought (CoT) работает ровно потому, что этот метод искусственно разрежает зависимости внутри сложного формального или математического утверждения. Вместо того чтобы вычислять финальный ответ сразу из всех исходных условий, модель разбивает задачу на изолированные промежуточные шаги. Каждое мини-вычисление становится более определенным и защищенным от ошибок, снижая общую вычислительную нагрузку на контекст.

Говоря о строгости формулировок, Пол Лессар сравнивает культуру публикаций в чистой математике и ML. В математическом сообществе силен иррациональный страх допустить ошибку или переоценить свои результаты, из-за чего прорывные статьи часто получают максимально скучные и невзрачные заголовки. В машинном обучении, напротив, процветает кликбейт, когда скромное инкрементальное улучшение преподносится под громким, помпезным названием. Хотя, как замечает Тим, история знает примеры ярких заголовков и в классическом ИТ — например, знаменитая статья Эдсгера Дейкстры «Оператор Go To считается вредным» (Go To Considered Harmful) 1968 года.

Развивая техническую сторону дискуссии, Лессар предлагает интуитивную аналогию: каузально маскированный трансформер можно рассматривать как параллелизированную аппроксимацию рекуррентной нейросети (RNN), имеющую фиксированную глубину в $N$ слоев. Эта идея созвучна докладу исследователя Питера Величковича на воркшопе по графовому обучению (Graph Learning Workshop) несколько месяцев назад.

Поскольку трансформеры по своей сути являются графовыми нейросетями (GNN), механизм каузального маскирования просто задает жесткие правила: какие узлы имеют право обновлять значения других узлов. Вместо сохранения полноценной рекурсивной функции, трансформер лишь фиксирует и передает вверх по цепочке слоев последовательные смещения (displacements). Фиксированная глубина — это ключевой фактор, делающий возможным эффективное параллельное обучение.

Однако здесь возникает серьезная инженерная проблема, известная как «эффект избыточного сжатия информации» (oversquashing) в графовых сетях. В классических RNN при авторегрессионном развертывании информация со временем плавно забывается. В трансформерах и GNN из-за огромной плотности связей информационные пути сжимаются настолько сильно, что модель физически перестает обращать внимание на большинство токенов в большом контексте.

Как отмечает Лессар, Питер Величкович в своем выступлении доказал, что стандартная функция argmax (даже при манипуляциях с температурой генерации) не способна сделать распределение внимания достаточно острым, чтобы спасти сеть от oversquashing при росте контекстного окна. Решением этой проблемы стало использование экспандерных графов (expander graphs). Вместо полносвязного внимания («каждый токен смотрит на все предыдущие») разработчики искусственно и хаотично прореживают связи.

Ограничение конуса внимания случайным образом парадоксально улучшает качество работы с длинным контекстом, предотвращая затухание и перемешивание сигналов за счет их контролируемого рассредоточения. Тим иронично замечает, что эта концепция заслуживает статьи с заголовком «Внимание считается вредным» (Attention Considered Harmful).

🎓 Математические тупики, недостижимые доказательства и «Теория всех архитектур» 25:57

Обсуждая важность упорядоченных представлений данных в ИИ, Пол Лессар вспоминает работы нейробиолога Станисласа Деана (автора теории глобального рабочего пространства) и его книгу «Чтение в мозге» (Reading in the Brain), а также исследования Жан-Пьера Шанжё из 1990-х годов, посвященные письменным системам народов мира. Ученые доказали, что человеческая письменность веками эволюционировала под жесткие ограничения зрительной коры: наши языки используют строго определенные пересечения и изгибы линий, которые мозг способен эффективно дифференцировать. Модели ИИ, напротив, часто лишены этих естественных биологических ограничений.

Кит делится личной историей из времен своей учебы в магистратуре, когда он впервые столкнулся с моделированием реальной физической системы, не имевшей аналитического решения в замкнутом виде. Не сумев посчитать сложный ряд вручную и не получив ответа от программы Mathematica, Кит отправился в библиотеку, где нашел массивные советские академические тома времен Второй мировой войны. В одном из них он обнаружил нужную последовательность, которая была лаконично определена как «ряд Стирлинга второго рода» — и на этом описание заканчивалось, никаких формул упрощения не предлагалось. Киту пришлось использовать численные методы аппроксимации. Этот случай подсветил проблему академического образования: студентов усердно учат решать идеальные, искусственно сконструированные задачи, оставляя их беспомощными перед хаосом реального мира.

Лессар проецирует эту проблему на обучение с подкреплением (RL) в плоскости автоматического доказательства теорем. Нам до сих пор не удалось создать систему уровня AlphaZero, которая доказывала бы теоремы лучше людей. Причина кроется в фундаментальной разнице сред:

В игре Го (или шахматах) в процессе симуляции одна из версий алгоритма всегда побеждает, обеспечивая стабильный приток положительного подкрепления.
В пространстве математических доказательств случайный поиск почти в 100% случаев оборачивается неудачей. Модель получает исключительно негативный стимул, из-за чего ее latent space дезориентируется.

Для успешного обучения человека и модели необходим контролируемый уровень определенности. Лессар ссылается на житейское определение «павловской тревожности»: состояния, при котором субъект физически не способен понять, повлечет ли его следующее действие награду или наказание. В таких условиях обучение блокируется, и педагогу (или инженеру) необходимо вернуть систему на шаг назад, в безопасную зону понятных правил.

В завершение беседы Пол Лессар рассказывает об эволюции своих взглядов и исправлении собственных научных ошибок. Год назад он в соавторстве с Бруно Гаврановичем, Жереми Дудзиком, Полом фон Гленом и Педро Араужо опубликовал нашумевший позиционный манифест «Категориальное глубокое обучение: алгебраическая теория всех архитектур» (Categorical Deep Learning: An Algebraic Theory of All Architectures). Пол признается, что лично протестовал против столь пафосного заголовка, но редакторы настояли на бомбическом названии, соответствующем традициям ML-индустрии.

В этой работе авторы через призму теории категорий пытались доказать, что сверточные слои (CNN) и рекуррентные блоки (RNN) представляют собой морфизмы алгебр для монад. Однако позже Лессар осознал, что в их рассуждениях крылась тонкая ошибка. Они утверждали, что для построения архитектур необходимы так называемые «слабые естественные преобразования» (lax natural transformations) и «слабые алгебры» из-за использования математической конструкции Para.

Сейчас Пол Лессар заявляет, что больше не верит в конструкцию Para, считая ее примером «случайной жесткости». Независимые исследования компании Symbolica (в частности, работы Соло Клингмана, Митча Бакли, Талиера и Байона) убедительно доказали, что рекуррентные сети выводятся гораздо проще — как классические функторы на классифицирующей категории группы $BG$ со значениями в категории множеств. Никакой «слабости» (laxness) не требуется, а прежние усложнения авторов были вызваны тем, что в конструкции Para плохо работают копределы (co-limits), отвечающие за склеивание математических объектов.

Сегодня Лессара больше всего вдохновляет радикальный взгляд на машинное обучение сквозь призму статистической физики. По его мнению, нейросети — это симуляция искусственной физической среды, где процесс минимизации энергии (обучение) вычисляет распределение данных. Это похоже на бомбардировку одиночного электрона в атоме водорода энергией с последующим замером его энергетических состояний. Главная задача фундаментального ML-исследователя сегодня — создать эффективный и элегантный язык для описания параметрических семейств моделей, позволяющий этим стохастическим процессам вычисляться максимально быстро.