# От алгоритмов к организмам: инженерия выживания по принципу активного вывода

Источник: https://www.youtube.com/watch?v=2wnJ6E6rQsU
Канал: Machine Learning Street Talk
Опубликовано: 20.11.2023

---

Мозг потребляет меньше энергии, чем лампочка, но управляет сложнейшими системами в условиях хаоса — секрет кроется не в мощных вычислениях, а в «выращивании» программ, которые минимизируют неопределенность, а не просто решают задачи. Вместо жестких алгоритмов мы переходим к эпохе активного вывода, где способность агентно реагировать на угрозу важнее безупречной точности модели.

## 🌌 Принцип наименьшего действия: Фундамент самоорганизации
[[JUMP:0:48]]

Принцип наименьшего действия — это не просто исторический курьез из учебников физики, а фундаментальный закон, пронизывающий все уровни бытия: от движения планет до работы нейронных сетей. В основе этого концепта лежит идея о том, что любая физическая система стремится к состоянию, где «действие» (интеграл от функции Лагранжа по времени) является стационарным, то есть минимальным. Функция Лагранжа, в свою очередь, инкапсулирует разницу между кинетической и потенциальной энергией системы, выступая краеугольным камнем этого процесса оптимизации.

Для исследователей это означает возможность описать поведение систем самого разного масштаба через единый математический аппарат. Когда большие объекты перемещаются в пространстве, они минимизируют разницу между кинетической и потенциальной энергией. В электромагнитных полях заряженные частицы движутся так, чтобы минимизировать разницу между электрической и магнитной энергией. Математическое нахождение минимума этого функционала действия позволяет вывести уравнения движения для конкретных систем: так мы получаем уравнения Максвелла для электродинамики или уравнения Ньютона для классической механики.

По сути, это «зонтичная» концепция: природа стремится минимизировать энергетические различия любого рода максимально быстро. В будущем, как полагают эксперты, этот принцип займет место в школьной программе по естественным наукам, став таким же общепризнанным законом, как гравитация или термодинамика.

---

## 🧠 Принцип свободной энергии Карла Фристона
[[JUMP:2:45]]

Если принцип наименьшего действия описывает физический мир, то концепция Карла Фристона переносит эту логику в когнитивную сферу, предлагая единый взгляд на экономику природы. Биологические системы — от отдельных клеток до сложных социальных ансамблей — существуют в условиях постоянной неопределенности. Чтобы выжить и успешно взаимодействовать с изменчивой средой, они должны минимизировать вариационную свободную энергию, которая математически представляет собой предел неожиданности (surprisal), возникающей при обработке сенсорных данных.

Этот процесс можно сравнить с тем, как мозг «скульптирует» модель мира. Представьте, что вы находитесь на шумном городском рынке: мозг постоянно делает «ставки» или предсказания о том, что вы видите и слышите. Если реальность соответствует этим предсказаниям, всё в порядке; если нет — возникает предсказательная ошибка (то, что называют «долгом» или «неожиданностью»). Мозг стремится свести эту ошибку к минимуму, непрерывно уточняя свои внутренние модели.

Связь между физическим и биологическим здесь проявляется в математической структуре:

*   Минимизация свободной энергии в мозге приводит к получению обновленных уравнений для обработки информации.
*   Этот процесс эквивалентен байесовскому выводу, где мы ищем «лучшее приближение» к реальности, минимизируя расхождение (дивергенцию Кульбака — Лейблера) между упрощенным распределением и сложной истинной картиной мира.
*   Ранее в разговоре участники касались вопроса вариационных методов и Байесовского вывода, которые позволяют решать эту задачу даже в условиях экспоненциально больших доменов, где точные вычисления невозможны.

Таким образом, минимизация свободной энергии — это не просто теоретическая абстракция, а наиболее эффективный и оптимальный способ обработки информации, к которому прибегает природа для поддержания гомеостаза.

## 🧠 От жестких алгоритмов к живым агентам
[[JUMP:25:06]]

Традиционный подход к созданию интеллектуальных систем часто разбивается о непредсказуемость реального мира. Как отмечает Берт де Врис, классическое обучение с подкреплением (Reinforcement Learning, RL) опирается на заранее заданные функции вознаграждения, которые оказываются крайне хрупкими в нестандартных ситуациях [27:13]. Если вы спроектировали ИИ для работы в тихой комнате, а он оказался в шумном ресторане, где гремят столовые приборы, система не сможет «перепридумать» свою цель на лету [25:20]. В этом фрагменте беседы обсуждается фундаментальный сдвиг: переход от жесткого программирования целей к активному выводу, где агент сам определяет свое поведение, минимизируя расхождения между своими ожиданиями и реальностью.

### Гибкость активного вывода против хрупкости вознаграждений
[[JUMP:25:32]]

Основное различие между обучением с подкреплением и активным выводом лежит в области философии целеполагания. В RL инженеры вручную создают функцию ценности, что часто превращается в «хакерство» под конкретную задачу [27:13]. Активный вывод предлагает более принципиальный подход — минимизацию вариационной свободной энергии.

Эта величина состоит из двух критически важных компонентов:

*   **Свидетельство модели (Model Evidence):** Оценка того, насколько хорошо внутренняя модель агента предсказывает данные из внешнего мира [25:50].
*   **Дивергенция Кульбака — Лейблера:** Своеобразная «стоимость решения», измеряющая разрыв между текущими убеждениями агента и идеальным байесовским выводом [26:02].

Когда мир меняется, стоимость «представления проблемы» в активном выводе растет, что заставляет систему автоматически перестраивать свою структуру [26:44]. Вместо того чтобы следовать жесткому коду вознаграждения, агент стремится к состоянию, которое он считает для себя «нормальным» или желаемым. Например, в модель можно заложить состояние «довольный пациент» как целевое, и система сама вычислит — через поиск и эксперименты — какие действия приведут к этому результату [29:00].

### Слуховой аппарат как самоорганизующийся агент
[[JUMP:38:41]]

Берт де Врис пришел к этим идеям не из чистой философии, а из практической необходимости в области обработки сигналов. Работая над цифровыми слуховыми аппаратами, он столкнулся с проблемой: инженеры и аудиологи не могут присутствовать рядом с пациентом в момент, когда устройство начинает работать плохо [39:08]. 

Переломный момент наступил в Рождество 2013 года, когда де Врис случайно наткнулся на статью Карла Фристона «Краткое руководство по мозгу» [39:35]. Хотя ранее в разговоре они касались общих принципов Фристона, именно здесь Берт увидел инженерное решение: превратить слуховой аппарат в автономного агента.

Идея заключается в том, чтобы позволить самому устройству нести ответственность за свой успех [40:15]. Вместо пассивного фильтра звука аппарат становится активным исследователем:

1.  Он строит генеративную модель акустической среды пациента.
2.  Он самостоятельно планирует «эксперименты» (испытания различных настроек), чтобы достичь желаемого состояния — комфорта пользователя [40:28].
3.  Он адаптируется в реальном времени, используя байесовский вывод для обновления своих внутренних параметров.

### Вариационные методы: искусство аппроксимации
[[JUMP:45:58]]

Математически байесовские методы считаются «единственно верным» способом работы с неопределенностью [46:11]. Однако при попытке применить их к сложным системам инженеры сталкиваются с «проклятием размерности» — необходимостью вычислять многомерные интегралы, что вычислительно невозможно [46:37].

Здесь на сцену выходят вариационные методы. Вместо поиска точного решения агент ищет «достаточно хорошее» приближение. Берт цитирует профессора Майкла Джордана из Беркли, выделяя два столпа сложных систем:

*   **Модульность**, которая в теории вероятностей реализуется через факторизацию (разделение сложной задачи на независимые фрагменты) [47:16].
*   **Абстракция**, достигаемая через маргинализацию (отсечение несущественных деталей для упрощения модели) [47:30].

Это позволяет реализовать «естественное расширение логики» для работы с реальностью, где данные всегда зашумлены и неполны [48:38].

### Инженерные вызовы реализации и «путь экономии»
[[JUMP:30:16]]

Реализация активного вывода в железе требует борьбы с вычислительной сложностью. В природе и в эффективной инженерии путь агента всегда определяется сохранением ресурсов [30:16]. Де Врис подчеркивает, что сложность модели напрямую коррелирует с потреблением энергии: каждое «движение убеждений» (обновление модели) требует ресурсов [30:43].

В активном выводе невозможно и не нужно строить «идеальную модель». Инженерная задача сводится к поиску баланса:

1.  Слишком детальная модель съест все ресурсы, не оставив сил на сам вывод [31:24].
2.  Слишком бедная модель даст идеальный ответ на неверно поставленный вопрос [31:37].

Решение в рамках активного вывода всегда является компромиссом — «достаточно хорошим» решением при минимальных затратах энергии [31:49]. Это превращает процесс проектирования из поиска математической чистоты в прагматичный поиск устойчивости. Как отмечает ведущий, такой «горнило» реальных задач заставляет инженеров открывать для себя байесовские методы и агентные системы не как абстрактную теорию, а как единственный работающий инструмент для выживания в полевых условиях [38:25].

## 🧠 Вычисления в режиме реального времени: от фактор-графов до автономных агентов

[[JUMP:50:24]]

В динамически меняющемся мире способность интеллектуальной системы обрабатывать данные «на лету» становится критическим преимуществом. Современные подходы к Байесовскому выводу, реализуемые через фактор-графы, позволяют эффективно решать задачи распределенного вывода, где каждый узел графа действует автономно. В отличие от традиционных инженерных систем, требующих жесткого планирования вычислений, архитектуры следующего поколения стремятся к реактивности, подобной человеческой: возможности прервать процесс в любой момент, чтобы считать актуальное состояние системы.

### Механизм передачи сообщений в фактор-графах
[[JUMP:50:51]]

В основе этого метода лежит идея распределенного Байесовского вывода. В фактор-графе вероятность распределяется по узлам, а переменные сопоставляются с ребрами графа. Каждый узел работает независимо, «заботясь о себе»: он интегрирует (маргинализирует) данные из окружающих его подграфов, передавая сообщения своим соседям.

Процесс функционирует следующим образом:

*   Один «конец» графа, связанный с априорными знаниями, формирует прогноз.
*   Другой «конец», получающий сенсорные данные из внешнего мира, формирует коррекцию.
*   Умножение этих двух потоков сообщений — это, по сути, реализация правила Байеса: «априорная вероятность» умножается на «правдоподобие».

Эта архитектура позволяет системе выполнять вычисления полностью параллельно. Если априорный прогноз, исходящий от гиперпараметра, существенно расходится с «мнением» остального графа, система получает сигнал о необходимости структурной адаптации — расширения модели для улучшения точности предсказаний. Ранее в разговоре они касались вариационных методов и Байесовского вывода как основы обучения.

### Автономность и реактивность в полевых условиях
[[JUMP:51:17]]

Для агентов, работающих в реальных «полевых» условиях, жесткое программирование последовательности вычислений (pre-scheduled message passing) оказывается фатальным. Если система жестко настроена на определенный порядок операций, появление любого непредвиденного объекта — например, велосипедиста на дороге — требует сброса расписания и перепланирования. В такой ситуации агент, не обладающий автономностью, попросту «врежется в стену», так как будет занят выполнением устаревшего алгоритма.

Решение кроется в реактивном программировании и модели «актор-система», где вычисления происходят не по расписанию, а в ответ на внешние события. Это позволяет агенту:

*   Динамически выделять вычислительные ресурсы в зависимости от важности задачи.
*   Применять активный вывод, оценивая необходимость адаптации «здесь и сейчас».
*   Осуществлять структурную адаптацию: когда текущие параметры перестают минимизировать ошибку предсказания, система начинает перестраивать саму архитектуру модели.

Хотя сегодня инженерное сообщество преуспело в оценке состояний в реальном времени, онлайн-обучение структуры остается «святым граалем» ИИ. Обучение езде на велосипеде служит классическим примером такой способности: человек не изучает теорию, а через поток ошибок предсказания сначала корректирует действия, затем параметры, и в конечном итоге — саму структуру своей нейронной модели, чтобы добиться предсказуемости поведения в постоянно меняющейся физической среде.

## ⚙️ Переосмысление архитектуры: от алгоритмов к самоорганизующимся системам
[[JUMP:1:16:04]]

Современная инженерия привыкла проектировать жесткие, процедурные алгоритмы, ориентированные на достижение высокой точности в рамках заданных параметров. Однако реальный мир — это непредсказуемая среда, где условия постоянно меняются, а вычислительные ресурсы и время на принятие решений ограничены. Человеческий мозг, напротив, демонстрирует невероятную эффективность: управление сложнейшими биологическими процессами, такими как гомеостаз, происходит при минимальном потреблении энергии — не более 20 ватт.

Фундаментальный вызов для разработчиков будущего заключается в переходе от написания кода к «выращиванию» программного обеспечения. Это требует отхода от модели проектирования, где все действия алгоритма прописаны заранее, в сторону создания самоорганизующихся агентов, способных локально минимизировать вариационную свободную энергию. Ранее в разговоре собеседники касались принципов Байесовского вывода, которые в данном контексте превращают систему в «автоматизированного инженера», преследующего конкретную цель (например, выживание или навигацию) через постоянную адаптацию к среде.

### 📉 Язык как механизм сжатия и упрощения
[[JUMP:1:15:32]]

Процесс обучения сложным навыкам — например, управлению велосипедом в меняющихся дорожных условиях — наглядно иллюстрирует, как мозг справляется с нелинейной физикой реальности. На начальном этапе освоения навыка требуется серьезное обновление параметров модели, а иногда и структурная перестройка. Однако по мере накопления опыта ошибки предсказаний сводятся к минимуму, и задача начинает требовать значительно меньше вычислительных затрат.

В этой парадигме язык и концептуальные модели выступают в роли своего рода «кодбука» или средства сжатия. Вместо обработки огромных массивов «сырых» сенсорных данных, система использует упрощенные внутренние представления для коммуникации и планирования. Когда предсказания становятся точными, отпадает необходимость в интенсивных вычислениях, что позволяет мозгу сохранять энергию. В инженерных системах мы пока далеки от такой эффективности, так как часто пытаемся наращивать аппаратные мощности, вместо того чтобы совершенствовать алгоритмический подход к представлению информации.

### 🏗️ Онлайновое структурное обучение в полевых условиях
[[JUMP:1:17:04]]

Главный вопрос, стоящий перед инженерами, заключается в том, как реализовать «магию» жизни — способность систем к обучению и структурной адаптации в реальном времени, когда условия меняются буквально на ходу. Большинство инженерных систем проигрывают живым организмам в масштабируемости и устойчивости, так как монолитные структуры требуют экспоненциального роста сложности коммуникации при добавлении каждого нового вычислительного узла.

Альтернатива кроется в распределенном управлении, где «планирование» не является централизованным актом, а диффундирует по всей системе. В такой архитектуре:

*   **Локальное принятие решений:** Каждый узел занят лишь минимизацией ошибки предсказания в зоне своей ответственности.
*   **Гибкость через структуру:** Выход из строя одного элемента не парализует систему — информация просто начинает течь по альтернативным путям.
*   **Адаптивность:** Структурная адаптация становится естественным следствием физики процесса; если узел выходит из строя, система автоматически перестраивается, что по сути является другой стороной robustness (устойчивости).

Подобный подход превращает разработку ПО в работу нейрохирурга: вместо прямого редактирования кода инженер «подталкивает» систему, заменяя агентов и наблюдая за возникновением желаемого эмерджентного поведения. Это требует преодоления серьезных барьеров в инженерном сообществе, привыкшем к жестким иерархиям, но это единственный путь к созданию по-настоящему устойчивых автономных агентов.

## 🛠️ Инженерные вызовы в эпоху генеративного ИИ
[[JUMP:1:40:33]]

### Демократизация разработки: от ручных выводов к автоматизации
[[JUMP:1:42:44]]

Хотя ранее в рамках интервью подробно обсуждались теоретические основы активного вывода и минимизации свободной энергии, реальное внедрение подобных систем на практике упирается в отсутствие доступного инструментария. Чтобы решить эту проблему, команда Берта де Вриса развивает открытый проект RXInfer (Reactive Extensions Infer) — специализированную библиотеку для автоматизации вариационного вывода в вероятностных моделях. На текущем этапе система отлично справляется со всем экспоненциальным семейством распределений, а также успешно интегрирует детерминированные нелинейности вроде сигмоид и логарифмов. 

Полноценная автоматизация здесь критична: для нетривиальных моделей инженеры попросту не способны выводить математические алгоритмы вручную, особенно в условиях динамически меняющейся среды. Идеальный рабочий процесс должен выглядеть так: разработчик набрасывает полстраницы кода для генеративной модели, подключает её к датчикам и буквально одной кнопкой выбирает режим оптимизации — по скорости или по точности. Огромный успех глубокого обучения во многом обусловлен тем, что любой студент может быстро спроектировать и обучить нейросеть; активный вывод нуждается в аналогичной демократизации инструментария. На сегодняшний день проект представляет собой весьма специфический стек: активный вывод на базе графов факторов, реализованный на языке Julia вместо привычного Python и построенный в парадигме реактивного программирования. Тем не менее, потенциал его долгосрочного влияния на всю цифровую инженерию огромен.

### Полевые испытания: вычисления в условиях жестких ограничений
[[JUMP:1:47:01]]

Главное водораздельное различие между классическим вероятностным программированием (вроде старой библиотеки Microsoft infer.net) и современным подходом заключается в необходимости работать непосредственно «в поле». Настоящим автономным агентам приходится минимизировать свободную энергию в условиях жестких дедлайнов, дефицита данных и даже при физическом выгорании отдельных вычислительных узлов. 

Мир вокруг нас стремительно электронизируется и заполняется распределенными устройствами — от умных термостатов до камер интернета вещей (IoT). Это создает мощное технологическое давление, заставляя инженеров искать новые архитектурные решения. Исследователи даже проводят параллели с распределенными операционными системами (такими как блокчейн Algorand), где вычисления должны быть децентрализованными, что напрямую влияет на общую отказоустойчивость, энергоэффективность и появление эмерджентного интеллекта. Архитектура вывода должна успешно масштабироваться как на глобальном уровне, так и локально в каждой пространственной точке системы.

### Принцип прерываемости: почему нейросети ломаются там, где ИИ выживает
[[JUMP:1:54:31]]

Главное технологическое преимущество вариационного подхода заключается в том, что весь процесс вывода может быть реализован параллельно и распределенно с помощью механизма передачи сообщений. Из этого вытекает важнейшее свойство архитектуры — её перманентная прерываемость (interruptibility) в любой микроскопический отрезочек времени. Если прервать алгоритм на полпути, система не зависнет и не выдаст ошибку, она просто вернет чуть менее точный результат. 

Собеседники приводят наглядную аналогию из эпохи медленного интернета: старые веб-изображения формата GIF загружались прогрессивно. Сначала пользователь видел сильно размытый силуэт картинки низкого разрешения, но с каждым шагом детализация удваивалась. В условиях колеблющихся ресурсов «в поле» (когда доступная мощность агента внезапно падает с 2 ватт до 1 ватта) идеальная точность не требуется. Например, если беспилотный автомобиль пытается избежать столкновения, ему в этот конкретный момент не важно, какая марка у встречной машины и как светят её фары — главное просто в неё не врезаться. Традиционные глубокие нейронные сети принципиально лишены такой гибкости: им необходимо последовательно выполнить вычисления на каждом слое. Остановка на промежуточном этапе делает весь процесс бессмысленным, оставляя лишь кучу несформированных битов. Процесс вывода обязан быть устойчивым к постоянным флуктуациям вычислительных ресурсов.

### Многомерная устойчивость и поиск «killer app»
[[JUMP:2:00:46]]

Полноценная автономность требует от агента умения гибко распределять фокус внимания в зависимости от контекста. Водитель на трассе может на секунду переключить внимание на зеркало заднего вида, временно снизив частоту сбора данных о дороге впереди. В инженерной практике это выливается в необходимость непрерывного балансирования по нескольким осям.

Среди ключевых измерений выделяются:

* Постоянные флуктуации входящих данных;
* Жесткие временные дедлайны;
* Скачки доступного энергопотребления.

Подобная многомерная резистентность делает искусственные системы похожими на биологических агентов с их механизмами морфогенеза и самовосстановления, изучаемыми Майклом Левиным. Абсолютное большинство современных программных систем при изменении хотя бы одного из этих параметров мгновенно ломаются. Чтобы завоевать признание индустрии, новому подходу необходимо свое «killer app» (убойное приложение) — например, демонстрация превосходства систем управления в условиях экстремального дефицита ресурсов. 

Предел пластичности таких систем наглядно иллюстрирует классический нейробиологический эксперимент с хорьком, у которого зрительный нерв перенаправили в слуховую кору, в результате чего животное снова обрело способность видеть. Поскольку кора головного мозга функционирует как универсальный движок предсказаний, ей не принципиальна природа поступающих данных (визуальные они или акустические) — её задача сводится к минимизации ошибок прогнозирования. Аналогично, по-настоящему надежный агент сможет легко адаптировать базовые паттерны поведения при переносе из одной физической среды в другую.

## 🧠 Становление байесовца: личные истории и логика науки
[[JUMP:2:18:40]]

### Крах ортодоксальной статистики и спасительные фотоны
[[JUMP:2:18:40]]
В инженерной практике и научных исследованиях часто наступает переломный момент, когда классические методы анализа данных заходят в тупик. Ранее в разговоре собеседники касались темы вариационных методов и проектирования слуховых аппаратов как самоорганизующихся агентов, однако настоящая революция в их мышлении произошла благодаря переходу к байесовскому мировоззрению. Для одного из ведущих подкаста этим триггером стала практическая задача из области двухфотонной микроскопии.

Ему требовалось измерить время затухания флуоресценции, располагая крайне скудным объемом данных — в распоряжении исследователя было всего около 30–50 фотонов. В поисках методологии он наткнулся на профильную научную статью, где авторы провели строгий статистический анализ и вынесли вердикт: для точного измерения времени жизни необходимо как минимум 10 000 фотонов. Ситуация казалась парадоксальной: на обычном графике экспериментатор отчетливо видел очертания кривой затухания, но ортодоксальный статистический аппарат отказывался работать с малой выборкой и заявлял, что задача нерешаема.

Решение пришло благодаря чистой случайности. Коллега по лаборатории искренне рассмеялся над примером из книги «Data Analysis: A Bayesian Tutorial» автора Д. С. Сивия. В тексте разбиралась дилемма распределения Коши: если пытаться определить его пик с помощью стандартного среднего арифметического, вы никогда не получите верный ответ, так как у этого распределения бесконечный второй момент, и каждая новая точка будет хаотично разбрасывать среднее значение. В то же время байесовский анализ методом максимального правдоподобия изящно и безошибочно находил истинный пик. Ознакомление с этой книгой полностью перевернуло взгляды ведущего, дав ему принципиально иное и более глубокое понимание теории вероятностей.

### Культовые книги и «бунтарский» статус Эдвина Джейнса
[[JUMP:2:20:26]]
Путь Берта к байесовскому подходу складывался схожим образом и начался в районе 2003 года, когда книжный рынок пополнился фундаментальными трудами, изменившими ландшафт ИИ. Речь идет о знаменитой работе Эдвина Джейнса «Probability Theory: The Logic of Science» и монографии Дэвида Маккая. В эпоху раннего интернета Джейнс обладал культовым, почти бунтарским статусом в научном сообществе. Он распространял в сети статьи, предлагавшие радикально иной взгляд на теорию вероятностей, позиционируя ее не как частотный подсчет исходов, а как строгое исчисление степени уверенности при неполных данных.

Берт вспоминает, что книга Джейнса была огромной и сложной для сквозного прочтения, однако любая случайная страница поражала феноменальной ясностью мысли. Автор писал дерзко, персонально и увлеченно («feisty»), что заставляло читателя проникаться самой личностью ученого. 

Несколько лет спустя, примерно в 2006 году, Берт также приобрел упомянутое руководство Сивии. Предисловие этой книги мгновенно срезонировало с его собственным опытом обучения: классические университетские курсы теории вероятностей всегда фокусировались на искусственных «игрушечных» задачах вроде подбрасывания кубиков или монеток. Когда же дело доходило до реальных данных, студентам предлагали набор оторванных от логики, произвольных рецептов («arbitrary recipes») классической статистики. Сивия же доказал, что всю статистику можно лаконично развернуть из одной лишь теории вероятностей. С тех пор Берт регулярно рекомендует первые пять глав этого учебника своим студентам для переосмысления научного метода.

### От распознавания образов Кристофера Бишопа до «информационной физики»
[[JUMP:2:23:27]]
Собеседники согласились, что ключевой вехой в их академическом становлении стал фундаментальный труд Кристофера Бишопа «Pattern Recognition and Machine Learning» (PRML). Эта книга наглядно доказала сообществу, что любые традиционные алгоритмы машинного обучения работают значительно эффективнее, если их упаковать в байесовские рамки. Примечательно, что именно команда Бишопа в Microsoft Research стояла у истоков механизмов вариационной передачи сообщений. Стоит отметить, что ранее в дискуссии участники вскользь упоминали инженерные вызовы эпохи генеративного ИИ и проблемы онлайнового обучения моделей.

На основе личного опыта спикеры сформировали импровизированный «золотой список» литературы для каждого, кто хочет освоить байесовский подход:

* «Probability Theory: The Logic of Science» — Эдвин Джейнс
* «Data Analysis: A Bayesian Tutorial» — Д. С. Сивия
* «Pattern Recognition and Machine Learning» — Кристофер Бишоп

В завершение Берт выделил еще одно прорывное направление, представленное работами теоретического физика Ариэля Катичи из Университета Олбани. Катича совершает революцию, сближая ИИ и фундаментальную науку через концепцию «информационной физики» (information physics). Он предлагает смотреть на саму физику как на инструмент вывода в условиях неопределенности. Его монографии находятся в открытом доступе, а полноценный курс лекций, записанный на YouTube во время пандемии, служит идеальным мостом между физической реальностью и теорией вероятностного ИИ. Этот подход подводит логическую черту под многолетним спором классических статистиков и байесовцев.