Обучение Байесовских сетей: от параметров к структуре

Stanford Online 34 тыс. 1 ч 19 мин 2 мин 06.11.2025
Главное

Байесовские сети: от структуры к обучению параметров 0:17

Байесовские сети представляют собой мощный инструмент для компактного представления совместных распределений вероятностей путём кодирования предположений о условной независимости переменных. В курсе Stanford AA228 рассматриваются методы перехода от полностью известных сетей к обучению параметров и структуры непосредственно на основе имеющихся данных.

Основы и нотация 3:43

Для формализации работы с сетями используется стандартная нотация:

Конфигурации родителей рассчитываются как произведение $R_i$ соответствующих родительских узлов. Важно сохранять консистентность маппинга этих конфигураций, порядок строк в таблице не имеет принципиального значения.

Обучение параметров: MLE против Байесовского подхода 7:57

Одной из центральных задач является поиск оптимальных параметров $\theta_{ijk}$, определяющих вероятность того, что $X_i = k$ при родительской конфигурации $j$.

Максимальное правдоподобие (MLE) 11:08

Метод максимального правдоподобия ищет параметры $\hat{\theta}$, максимизирующие вероятность наблюдаемых данных $D$ при известной структуре графа $G$. Оптимальные параметры рассчитываются как отношение количества наблюдений конкретного состояния к общему числу наблюдений данной родительской конфигурации:

$$\hat{\theta}{ijk} = \frac{M{ijk}}{\sum_{k'} M_{ijk'}}$$

Спикер отмечает существенный недостаток MLE: если событие не было зафиксировано в данных, модель присвоит ему вероятность 0%, что противоречит интуитивным представлениям о мире (например, если в обучающей выборке не было дождя с зонтом, модель «забудет» о такой возможности).

Байесовское обучение 19:52

Байесовский подход вместо точечной оценки ищет распределение вероятностей параметров, используя распределение Дирихле (обобщение бета-распределения) с псевдосчётчиками $\alpha$.

Обучение структуры графа 37:27

Для поиска наилучшей структуры графа необходимо ввести объективную меру — Байесовский счёт (Bayesian score), который позволяет оценить вероятность графа при данных $P(G|D)$.

Алгоритмы поиска структуры 52:36

Из-за огромного пространства возможных структур поиск глобального оптимума является сложной задачей:

  1. Алгоритм K2: Жадный алгоритм с полиномиальным временем работы, требующий задания фиксированного порядка узлов, который предотвращает возникновение циклов. Не гарантирует нахождение глобального оптимума.
  2. Локальный поиск (Local Search): Начинается с произвольного графа. На каждом шаге совершаются базовые операции (добавление, удаление или инверсия ребра) для поиска графа с лучшим счётом.
    • Методы преодоления локальных оптимумов: Случайные перезапуски (randomized restarts), имитация отжига (simulated annealing) и генетические алгоритмы.

Марковская эквивалентность

Две структуры графа называются марковски эквивалентными, если они кодируют идентичные предположения об условной независимости. Для проверки эквивалентности достаточно убедиться, что:

  1. Графы имеют одинаковые ненаправленные ребра.
  2. Графы имеют одинаковый набор «аморальных» V-структур (где родители не соединены между собой).

Поиск по пространствам эквивалентности эффективнее, так как это пространство значительно меньше пространства всех возможных графов.

💬 Цитаты

«Сила Байесовской сети в том, что она компактно представляет совместное распределение, кодируя предположения об условной независимости.»

«В Байесовском обучении параметров мы находим не точечную оценку, а распределение.»

👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Условная независимость
Ситуация, когда знание третьей переменной Z делает две другие переменные X и Y независимыми.
Распределение Дирихле
Многомерное обобщение бета-распределения, используемое для моделирования априорных вероятностей параметров.
Псевдосчётчики (pseudo-counts)
Параметры альфа, которые добавляются к наблюдаемым частотам для задания априорных убеждений.
V-структура
Конфигурация в графе, где два родительских узла соединяются с одним дочерним.
Марковская эквивалентность
Свойство двух графов кодировать одни и те же предположения об условной независимости.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Bayesian networks parameter learning structure learning K2 algorithm Dirichlet distribution