Обучение Байесовских сетей: от параметров к структуре

Байесовские сети: от структуры к обучению параметров 0:17

Байесовские сети представляют собой мощный инструмент для компактного представления совместных распределений вероятностей путём кодирования предположений о условной независимости переменных. В курсе Stanford AA228 рассматриваются методы перехода от полностью известных сетей к обучению параметров и структуры непосредственно на основе имеющихся данных.

Основы и нотация 3:43

Для формализации работы с сетями используется стандартная нотация:

$X_1, \dots, X_N$: набор дискретных случайных переменных.
$R_i$: число возможных состояний (инстанциаций) узла $X_i$.
$Q_i$: число возможных конфигураций родителей узла $X_i$.
$P_{ij}$: $j$-я конфигурация родителей узла $X_i$.

Конфигурации родителей рассчитываются как произведение $R_i$ соответствующих родительских узлов. Важно сохранять консистентность маппинга этих конфигураций, порядок строк в таблице не имеет принципиального значения.

Обучение параметров: MLE против Байесовского подхода 7:57

Одной из центральных задач является поиск оптимальных параметров $\theta_{ijk}$, определяющих вероятность того, что $X_i = k$ при родительской конфигурации $j$.

Максимальное правдоподобие (MLE) 11:08

Метод максимального правдоподобия ищет параметры $\hat{\theta}$, максимизирующие вероятность наблюдаемых данных $D$ при известной структуре графа $G$. Оптимальные параметры рассчитываются как отношение количества наблюдений конкретного состояния к общему числу наблюдений данной родительской конфигурации:

$$\hat{\theta}{ijk} = \frac{M{ijk}}{\sum_{k'} M_{ijk'}}$$

Спикер отмечает существенный недостаток MLE: если событие не было зафиксировано в данных, модель присвоит ему вероятность 0%, что противоречит интуитивным представлениям о мире (например, если в обучающей выборке не было дождя с зонтом, модель «забудет» о такой возможности).

Байесовское обучение 19:52

Байесовский подход вместо точечной оценки ищет распределение вероятностей параметров, используя распределение Дирихле (обобщение бета-распределения) с псевдосчётчиками $\alpha$.

Псевдосчётчики $\alpha$ интерпретируются как априорные данные: чем они выше, тем выше уверенность в модели.
При поступлении новых данных параметры распределения Дирихле обновляются простым прибавлением наблюдаемых частот $M_{ijk}$ к априорным $\alpha_{ijk}$.

Обучение структуры графа 37:27

Для поиска наилучшей структуры графа необходимо ввести объективную меру — Байесовский счёт (Bayesian score), который позволяет оценить вероятность графа при данных $P(G|D)$.

Баланс сложности: Использование счёта автоматически наказывает модель за избыточную сложность при малом объёме данных, предотвращая переобучение.
Реализация: При имплементации критически важно использовать логарифмирование (log-trick) для работы с вероятностями во избежание численных ошибок и использовать встроенные функции loggamma.

Алгоритмы поиска структуры 52:36

Из-за огромного пространства возможных структур поиск глобального оптимума является сложной задачей:

Алгоритм K2: Жадный алгоритм с полиномиальным временем работы, требующий задания фиксированного порядка узлов, который предотвращает возникновение циклов. Не гарантирует нахождение глобального оптимума.
Локальный поиск (Local Search): Начинается с произвольного графа. На каждом шаге совершаются базовые операции (добавление, удаление или инверсия ребра) для поиска графа с лучшим счётом.
- Методы преодоления локальных оптимумов: Случайные перезапуски (randomized restarts), имитация отжига (simulated annealing) и генетические алгоритмы.

Марковская эквивалентность

Две структуры графа называются марковски эквивалентными, если они кодируют идентичные предположения об условной независимости. Для проверки эквивалентности достаточно убедиться, что:

Графы имеют одинаковые ненаправленные ребра.
Графы имеют одинаковый набор «аморальных» V-структур (где родители не соединены между собой).

Поиск по пространствам эквивалентности эффективнее, так как это пространство значительно меньше пространства всех возможных графов.