Х. М. Эрнандес Лобато о байесовских методах в глубоком обучении

Интеграция байесовских методов и глубокого обучения открывает новые горизонты в решении сложнейших научно-технических задач — от направленного молекулярного дизайна до создания интерпретируемых систем искусственного интеллекта. В новом выпуске подкаста The TWIML AI Podcast преподаватель машинного обучения в Кембриджском университете Х. М. Эрнандес Лобато (J. M. Hernández Lobato) подробно рассказывает о последних достижениях своей исследовательской группы. В центре дискуссии — практическое применение вариационных автокодировщиков (VAE), байесовской оптимизации и инновационных подходов к обеспечению робастности и сжатия нейросетей.

🧠 Путь в машинное обучение и кембриджские традиции 0:01

Интерес к искусственному интеллекту зародился у Х. М. Эрнандеса Лобато еще во время обучения в бакалавриате. В то время классический ИИ доминировал в академической среде, и будущий ученый самостоятельно программировал свои первые шахматные движки. Решение поступить в аспирантуру совпало с периодом, когда машинное обучение еще не было столь популярным и востребованным, как сегодня. По мнению исследователя, ему повезло начать карьеру именно в тот момент, что позволило занять сильные академические позиции к началу глобального бума технологий.

Сейчас Х. М. Эрнандес Лобато работает на факультете Кембриджского университета, традиционно известного своей сильной школой байесовских методов. Его научные интересы сосредоточены на стыке байесовского подхода и глубокого обучения. Количественная оценка неопределенности (uncertainty quantification), как утверждает гость, критически важна для принятия решений во многих прикладных сферах. Ученый выделяет следующие направления ее применения:

В активном обучении (active learning) для быстрого сбора наиболее информативных данных.
В поиске новых молекул с заданными улучшенными свойствами для ускорения фармацевтических разработок.
В компрессии параметров нейросетей для их последующего переноса на смартфоны и специализированные аппаратные устройства с жесткими ограничениями по памяти.

📊 Таксономия подходов к оценке неопределенности 3:37

Точное вычисление неопределенности в глубоком обучении на практике оказывается неразрешимой задачей (intractable), требующей математических аппроксимаций. Х. М. Эрнандес Лобато разделяет существующие подходы к аппроксимации на несколько ключевых направлений:

Методы на основе сэмплирования (sampling-based methods), которые извлекают приближенные выборки из апостериорного распределения.
Детерминированные аппроксимации, стремящиеся представить неопределенность в виде фиксированного распределения (например, гауссовского) поверх весов нейросети.
Имплицитные модели (implicit models), работающие с чрезвычайно гибкими распределениями и занимающие промежуточное положение по сложности между сэмплированием и гауссианами.

На сегодняшний день в научном сообществе нет консенсуса о том, какой метод однозначно превосходит остальные. По словам исследователя, основная активность разработчиков сейчас сосредоточена на поиске оптимального баланса между вычислительными затратами на получение оценок и качеством этих оценок.

🧪 Молекулярный дизайн: от плоских графов к 3D-пространству 5:32

Поиск новых молекул с улучшенными свойствами — одна из наиболее перспективных областей, где неопределенность направляет оптимизацию. Традиционный цикл разработки включает предложение молекулы, сбор экспериментальных данных, обновление моделей и генерацию новых кандидатов. Оценка неопределенности помогает алгоритму выбирать те молекулы, которые сочетают высокую точечную оценку качества и высокий уровень неизвестности, что дает максимальный шанс найти структуру лучше всех ранее известных.

В практике исследовательской группы сформировалось два основных подхода к этой задаче. Первый подход опирается на генерацию молекул через последовательность химических реакций. Модель обучается на массивах данных о существующих реакциях и выдает не просто абстрактный граф, но и пошаговый рецепт синтеза. Второй метод, представленный на конференции ICLR, основан на генерации молекул непосредственно в трехмерном пространстве. В отличие от традиционных двумерных молекулярных графов, упускающих пространственную конфигурацию, 3D-моделирование учитывает точное положение атомов и углы связей. В качестве аналогии ученый приводит молекулу воды, уникальные свойства которой во многом определяются нелинейным углом между связями водорода и кислорода. Подобная пространственная точность критически важна для ускорения создания новых лекарств, на которые фармацевтические компании тратят огромные бюджеты.

🤖 Обучение с подкреплением и латентная байесовская оптимизация 11:50

Разработка трехмерных моделей молекул велась кембриджской командой практически с нуля. Архитектура использует агента обучения с подкреплением (RL), который учится расставлять атомы в пространстве, имея изначально лишь «набор» доступных элементов. Единственной обратной связью для агента служит итоговая конфигурационная энергия системы: методом проб и ошибок он находит физически стабильные конфигурации с низкой энергией. Для преодоления проблемы нехватки данных (sample inefficiency), свойственной RL, применяются быстрые численные методы приближения энергии.

Однако реальные, биологически значимые свойства молекул требуют дорогостоящих лабораторных тестов. Для оптимизации процесса исследовательская группа интегрирует суррогатные модели (surrogate models):

Суррогатные модели делают быстрые предсказания свойств на основе имеющихся исторических данных.
RL-агент ориентируется на эти предсказания при генерации структур.

В двумерном пространстве графов эта связь реализуется через байесовскую оптимизацию с использованием гауссовских процессов. Применение вариационных автокодировщиков позволяет сжать дискретную структуру молекул в непрерывное низкоразмерное латентное пространство. Оптимизация свойств происходит именно в этом пространстве, после чего точки декодируются обратно в молекулярные структуры, что позволяет обходиться без глубоких экспертных знаний химии на этапе генерации.

📦 Метод относительного энтропийного кодирования для сжатия нейросетей 18:33

Другим прорывным направлением работы группы Х. М. Эрнандеса Лобато, которым руководили его аспиранты Мартин Хаваси и Грег Флеминг, стало радикально новое сжатие данных. Традиционные методы, такие как арифметическое кодирование, сопоставляют последовательность символов с кодом, размер которого пропорционален логарифму вероятности исходной последовательности. Метод относительного энтропийного кодирования (Relative Entropy Coding) сжимает не конкретное значение случайной величины, а случайные сэмплы из распределения.

Отправитель и получатель заранее согласуют простую базовую структуру, например, стандартное гауссовское распределение. Отправитель передает лишь минимальный набор битов, позволяющий получателю реконструировать случайный сэмпл из целевого распределения, при этом точное распределение получателю не раскрывается. Подобный подход, по словам Х. М. Эрнандеса Лобато, демонстрирует передовые результаты (state-of-the-art) при сжатии весов нейросетей. Нейронные сети чрезвычайно устойчивы к малым пертурбациям весов. Передача слегка искаженной версии параметров не снижает точность предсказаний, но позволяет достичь наилучших показателей компрессии. Метод также применим к сжатию изображений с потерями (lossy compression), где небольшое ухудшение качества картинки компенсируется высокой степенью сжатия.

🛡️ Робастность ИИ: инвариантная минимизация рисков и каузальный вывод 23:59

Современные методы глубокого обучения уязвимы перед ложными корреляциями (spurious features). Классический пример — классификация изображений коров и верблюдов: если коровы всегда сняты на фоне зеленых лугов, а верблюды — в пустыне, нейросеть привязывается к пикселям фона. Стоит корове оказаться на пляже, модель совершает грубую ошибку. Для решения этой проблемы существует концепция инвариантной минимизации рисков (Invariant Risk Minimization, IRM), однако исторически она опиралась на линейные модели, ограничивающие ее применимость в сложных нелинейных средах. Идея IRM заключается в поиске предиктора, инвариантного относительно различных представлений данных или окружений (environments).

Группа Х. М. Эрнандеса Лобато предложила использовать для нелинейного случая семейство идентифицируемых вариационных автокодировщиков (identifiable VAE). В отличие от стандартных VAE, которые при каждом новом обучении генерируют разные латентные переменные, идентифицируемые модели при любых инициализациях выдают строго одинаковые латентные переменные. Далее в игру вступают методы каузальной идентификации (causal identification):

Модель разделяет латентные переменные на те, что описывают фон, и те, что описывают форму объекта.
С помощью тестов на независимость определяются переменные, причинно-связанные с целевой меткой класса.
В качестве математической основы принимается предположение, что метка является нелинейным преобразованием латентной переменной плюс аддитивный шум.

Направление правого каузального вектора определяется путем оценки статистических паттернов шума в обоих направлениях предсказания. Данная работа ведется в коллаборации с известным ученым Бернардом Шёлькопфом и планируется к отправке на конференцию NeurIPS.

🏁 Тестирование на бенчмарке Colored MNIST 33:04

Оценка эффективности разработанных алгоритмов робастности сопряжена с трудностями, поэтому группа использует стандартный бенчмарк — Colored MNIST. В этом датасете рукописные цифры окрашиваются в красный или зеленый цвета, которые намеренно жестко коррелируют с целевой меткой (например, цифры 0–4 относятся к первой категории, 5–9 — ко второй). Обучение происходит в двух разных средах, где вероятность совпадения цвета и категории незначительно варьируется, что необходимо для детекции ложных корреляций.

В тестовой выборке связь между цветом и меткой полностью устраняется. Обычные нейросети показывают на тесте крайне низкие результаты, поскольку привязываются к цвету. Разработанный кембриджскими учеными метод, по утверждению Лобато, позволяет строить нелинейные представления и нелинейные прогнозы, демонстрируя одни из лучших результатов на данном бенчмарке. С технической точки зрения для вывода скрытых переменных вместо стандартного вариационного вывода (variational inference) ученые планируют задействовать более точные, хотя и вычислительно дорогие методы на основе сэмплирования.

🔍 Интерпретируемость неопределенности: метод CLUE 37:43

Еще одна важная работа группы, удостоенная устного доклада (oral presentation) на конференции ICLR, посвящена раскрытию «черного ящика» глубокого обучения и называется CLUE. Традиционные методы интерпретируемости объясняют сам прогноз нейросети (например, почему система рекомендовала отказать в выдаче кредита). Метод CLUE (Counterfactual Latent Uncertainty Explanations) смещает фокус на интерпретацию оценок неопределенности, объясняя, почему модель сомневается в своем ответе.

Для этого вновь привлекаются вариационные автокодировщики, отображающие данные в низкоразмерное латентное пространство. Когда байесовская нейросеть выдает высокую неопределенность для конкретной точки, алгоритм CLUE ищет в латентном пространстве ближайшие counterfactual-точки (контрфактуальные сценарии), при декодировании которых сеть становится уверенной в прогнозе. Оптимизация ведется на основе градиентного спуска внутри латентного пространства с жестким ограничением близости к оригиналу. Сравнение исходной «сомнительной» точки и близкой к ней «уверенной» наглядно подсвечивает пиксели или признаки, вызвавшие путаницу. При тестировании на датасете MNIST метод безошибочно выделил пиксели, которые заставляли цифру 4 выглядеть как 9, открывая, по мнению Х. М. Эрнандеса Лобато, совершенно новое поднаправление в области объяснительного ИИ (XAI).