Байесовская механика: как ИИ учится выживать и «мыслить»

Machine Learning Street Talk 42,4 тыс. 2 ч 45 мин 21 мин 22.10.2024
Главное

Агентность — это не тайна сознания, а «полезная фикция», позволяющая нам описывать системы, которые активно перекраивают реальность под собственные ожидания. На стыке байесовской механики и термодинамики рождается новая физика жизни, где каждый шаг ИИ — это математическая попытка минимизировать сюрпризал и удержать хрупкий гомеостаз в хаотичном мире. Разбираемся, как алгоритмы учатся «любопытству» и почему наша интеграция в эти системы рискует обернуться когнитивной деградацией.

🧠 Природа агентности: от правового статуса ИИ к фундаментальной физике жизни 0:00

Юридический вакуум и иллюзия разумности машин 0:00

Сегодня интернет переполнен дискуссиями об искусственном интеллекте, однако ключевая проблема, с которой мы сталкиваемся, лежит в юридической плоскости. Ведущий канала Machine Learning Street Talk Тим Скэартон (Tim Scarfe) и его гость отмечают, что в современном мире полностью отсутствует адекватный правовой язык для описания агентности ИИ. Мы создали технологию, которая ведет себя в точности так, будто она обладает человеческим разумом, что порождает опасные риски преждевременного наделения нейросетевых моделей человеческими правами.

Эта иллюзия возникает из-за способности систем к высокой степени абстракции. Однако авторы подчеркивают принципиальную разницу между поведением машины и реальным мышлением:

Проблема усугубляется тем, что у человечества до сих пор нет единого объективного бенчмарка или меры для истинного понимания. Мы видим, как модель выполняет удивительные вещи, и путаем это с когнитивной агентностью. Ранее в разговоре они вскользь касались того, что статистическая архитектура генеративных моделей (которую подробно разберут в следующей главе) построена на чистых математических корреляциях, но люди упрямо склонны очеловечивать алгоритмы, создавая ложные этические дилеммы там, где идет обычное вычисление.

Принцип свободной энергии: как живые системы побеждают хаос 5:30

Чтобы по-настоящему понять природу агентности и интеллекта, необходимо обратиться к нейробиологии и физике живых систем. Фундаментальный вопрос заключается в том, почему одни агенты успешно выживают в хаотичной Вселенной, а другие просто не способны существовать. Ответ кроется в Принципе свободной энергии (FEP), который описывает базовые механизмы самосохранения.

Каждая живая система имеет определенный набор «предпочтительных состояний», которые способствуют ее выживанию. Например, для человека критически важно удерживать температуру тела в узком диапазоне. С кибернетической точки зрения эти состояния можно назвать «заданными точками» (set points). Ключевое прозрение FEP заключается в том, что организмы стремятся минимизировать «неожиданность» (surprisal) — математическую величину, отражающую отклонение от этих предпочтительных параметров.

Когда мы получаем сенсорную информацию, сигнализирующую о выходе за рамки нормы (например, ощущение невыносимого холода), наш организм мгновенно понимает, что в этих опасных состояниях он выжить не сможет. Живая система функционирует как так называемый пулбэк-аттрактор (pullback attractor). Она организует свою внутреннюю динамику таким образом, чтобы минимизировать вариационную свободную энергию во времени. Это позволяет ограничить пагубное воздействие внешней среды и поддерживать гомеостаз, защищая систему от распада. О том, как этот принцип математически переносится на лосс-функции в машинном обучении, подробно пойдет речь в третьей главе статьи.

Автогены и «порядок даром»: возникновение биологических границ 12:25

Как подобные саморегулирующиеся системы вообще возникают в физическом мире? Ответ на этот вопрос лежит на стыке простой химии и теории систем, где ключевую роль играет динамика разделения среды. В качестве базового примера можно рассмотреть модель автогенов — простейших самоорганизующихся химических циклов.

Представьте циклическую реакцию: вещество А превращается в соединение B, B переходит в C, а C трансформируется обратно в А. В определенный момент побочным продуктом этой цепочки становится формирование физической границы — например, фосфолипидного бислоя, как в живых клетках. Возникает удивительный феномен самоорганизации:

С точки зрения физики, система постоянно возвращается в одни и те же макроскопические состояния, поддерживая последовательный и стабильный процесс. Из тривиального набора вселенских правил внезапно рождается нечто упорядоченное. Ученый Стюарт Кауффман назвал это явление «порядком даром» (order for free) — когда паттерн устойчиво сохраняется исключительно благодаря тесной физической близости компонентов и базовым законам термодинамики.

Именно в этот момент стирается грань между чистой физико-химией и биологической агентностью. Возникает иерархия агентности, где статистические и физические границы отделяют внутренний мир системы от внешнего хаоса. В последующих разделах мы увидим, как эти границы формализуются в виде так называемых границ Маркова, формируя фундамент байесовской механики.

🧠 Архитектура байесовского разума: от границ Маркова к новой физике 30:23

Границы Маркова: как возникают контуры индивидуальности 30:23

В процессе содержательной беседы с ведущим канала Machine Learning Street Talk Тимом Скэартоном (Tim Scarfe) фокус внимания смещается на фундаментальную проблему: как биологические или искусственные структуры вообще умудряются очерчивать свое присутствие в хаотичной Вселенной? Ответом, объясняющим это разделение систем, становится концепция границ Маркова (Markov blankets), впервые детально упоминаемая на тридцатой минуте разговора. В классической статистике этот термин обозначает минимальное подмножество переменных, которое изолирует целевой узел от влияния всей остальной сети. Перенесенная в область физики живых систем, граница Маркова становится математическим синонимом физической оболочки организма или клетки.

Эта концепция не бинарна; ученые рассматривают её скорее как непрерывный спектр автономии и изоляции. Граница определяет, где заканчивается внешняя среда и начинается обособленный агент. Математически эта оболочка реализуется через два встречных информационных потока:

Благодаря такой дуальной структуре достигается статистическая независимость между внутренними состояниями системы (ее биологической архитектурой) и внешними состояниями среды. Сила или слабость этой границы определяет характер взаимодействия системы с окружением. Примечательно, что ранее в диалоге спикеры уже мимоходом затрагивали тему возникновения границ и самоорганизации живой материи, однако именно марковское «одеяло» переводит эти абстрактные рассуждения на язык строгих формул, описывающих связь агента со Вселенной.

Байесовская механика: физика живого и мыслящего 32:06

Построение строгой математической базы вокруг систем, защищенных марковскими границами, привело исследователей к формулированию принципиально новой научной дисциплины — байесовской механики. Её авторы предлагают выделить изучение систем, обладающих внутренними «убеждениями» (beliefs), в абсолютно независимый раздел теоретической физики. Традиционная физика отлично справляется с неодушевленными объектами, но пасует перед агентами, которые целенаправленно интерпретируют сигналы извне. Байесовская механика решает эту задачу, органично объединяя законы классической термодинамики и постулаты теории информации.

Важной вехой для признания этого направления стала публикация основополагающей научной работы в 2018 году. По сути, байесовская механика заявляет о себе как об исчерпывающем физическом ответе на эпохальный вопрос Эрвина Шрёдингера «Что такое жизнь с точки зрения физики?», сформулированный великим ученым еще в 1944 году. Шрёдингер поражался способности живых систем избегать тепловой смерти и удерживать порядок. Новая дисциплина доказывает, что этот порядок поддерживается за счет того, что любая живая структура оперирует статистическими убеждениями о своем окружении.

В ответ на скепсис Тима Скэартона относительно применимости столь сложного аппарата к реальным хаотическим процессам, подчеркивается универсальность теории. Инструменты байесовской механики и активного вывода одинаково эффективно описывают не только работу человеческого мозга, но и поведение климатических систем, хаотическую динамику жидкостей и даже социальные паттерны больших групп людей. Любая структура, стремящаяся сохранить стабильность до того, как энтропия разрушит её, подчиняется этим универсальным физическим законам.

Статистическая архитектура генеративных моделей 41:14

Чтобы детально разобраться, как эти абстрактные физические законы воплощаются в когнитивной практике, необходимо спуститься на уровень статистической архитектуры генеративных моделей. Любой автономный агент, взаимодействующий со своей средой, фактически лишен возможности воспринимать реальность «как она есть». Вместо этого он вынужден постоянно симулировать окружающую среду внутри себя. Вся поступающая к нему информация разделяется на упорядоченные блоки, проходящие через призму двух базовых элементов теории вероятностей:

В процессе жизнедеятельности агент постоянно сталкивается с несоответствием между тем, какие сенсорные данные он ожидал зафиксировать на основе своих внутренних прогнозов, и тем, что в действительности транслирует ему физическая реальность. Генеративная модель берет эти расхождения и путем байесовского перемножения априорных данных и функции правдоподобия вычисляет апостериорное распределение (posterior distribution).

Апостериорная вероятность — это обновленная, максимально точная картина мира, которой агент руководствуется «здесь и сейчас». Если рецепторы фиксируют падение капель, модель сопоставляет этот сигнал с функцией правдоподобия и пересчитывает вероятность в пользу того, что за пределами марковской границы действительно идет дождь. Этот непрерывный математический цикл шаг за шагом обновляет когнитивную карту агента на каждом новом микроинтервале времени.

🧠 Математика оптимизации и природа удивления 50:28

В процессе построения моделей биологических систем исследователи сталкиваются с фундаментальной вычислительной проблемой: как найти наиболее точное описание скрытых состояний мира, имея на руках лишь поток сенсорных данных. Задача вычисления апостериорного распределения — того самого «лучшего предположения» о реальности — часто оказывается математически неразрешимой из-за огромной размерности данных и сложности взаимосвязей. Здесь на сцену выходит вариационная свободная энергия как мощный инструмент оптимизации.

Вариационная свободная энергия: превращая сложное в решаемое 51:42

Вместо того чтобы пытаться напрямую вычислить апостериорное распределение, агент использует вариационную свободную энергию в качестве «лосс-функционала» (функции потерь). Это позволяет переформулировать задачу: вместо поиска точного, но недостижимого решения, мы превращаем её в задачу оптимизации параметров модели.

Суть метода заключается в следующем:

Такой подход позволяет агенту эффективно обновлять свои внутренние представления, не тратя вычислительные ресурсы на нерешаемые уравнения.

Сюрпризал: мера качества модели 58:59

Часто возникает путаница между терминами «информационная энтропия» и «сюрпризал» (surprisal). В контексте активного вывода сюрпризал — это не просто эмоция удивления, а математическая мера качества модели. Он количественно выражает то, насколько маловероятным было текущее сенсорное наблюдение для конкретной модели.

Ключевые аспекты этого понятия:

Действие как инструмент изменения мира 1:05:47

Агент, стремящийся минимизировать сюрпризал, обладает двумя стратегиями. Он может изменять свою внутреннюю модель, чтобы лучше соответствовать внешнему миру (обучение), но он также может изменять сам мир, чтобы тот соответствовал его ожиданиям. Это фундаментальный аспект активного воздействия: агент не является пассивным наблюдателем, он постоянно активно воздействует на среду.

Ранее в разговоре Тим Скэартон и его собеседник обсуждали концепции границ Маркова, которые здесь выступают каркасом для этого взаимодействия.

По сути, любое действие — будь то движение тела, поиск еды или изменение контекста для поддержания гомеостаза — является способом минимизации сюрпризала. Если мы «удивлены» голодом, мы действуем так, чтобы получить пищу и свести этот сюрпризал к минимуму. Таким образом, сама «целеустремленность» биологических систем — это не что иное, как математическое стремление удерживаться в привычных, предсказуемых границах состояний. Мы исследуем пространство состояний не ради хаоса, а для того, чтобы найти и закрепить области, где наши предсказания наиболее точны, а сюрпризал минимален.

🧭 От рефлексов к планированию: Дискретность, аллостаз и иллюзия агентности 1:15:26

В этой части дискуссии Тим Скэартон (Tim Scarfe) и его собеседники углубляются в то, как математические абстракции превращаются в инструменты выживания. Мы переходим от фундаментальных законов физики к когнитивным архитектурам, которые позволяют живым системам не просто существовать «здесь и сейчас», но и активно конструировать своё будущее.


🎲 Дискретное и непрерывное: Математический поворот в планировании 1:17:21

История активного выведения (Active Inference) — это во многом история борьбы двух математических языков. В ранних работах доминировал непрерывный подход, опирающийся на дифференциальные уравнения. Это было логично: физический мир непрерывен, и для моделирования простых движений или низкоуровневых сенсорных процессов такая математика подходила идеально. Однако, когда дело дошло до сложного планирования, исследователи столкнулись с вычислительным тупиком.

Перелом наступил около 2015 года, когда в ключевых работах по активному выведению произошёл сдвиг в сторону дискретных моделей. Переход к дискретным марковским процессам принятия решений (MDP) позволил описывать поведение не как бесконечный поток изменений, а как последовательность состояний и символов.

Это разделение напоминает классическую психологическую дихотомию «Системы 1» и «Системы 2»:

Как отмечается в беседе, такая архитектура позволяет превращать непрерывные потоки данных из внешнего мира в дискретные символы, которыми гораздо проще манипулировать при долгосрочном планировании. Ранее в разговоре участники уже упоминали байесовскую механику, и здесь она служит мостом, позволяющим объединить эти два режима в единую систему управления.


🛡️ Аллостатический контроль: Почему разведка важнее комфорта 1:30:35

Часто биологические системы описывают через концепцию гомеостаза — поддержания стабильности (например, постоянной температуры тела) по принципу термостата. Но живые организмы гораздо хитрее. Тим и его гости обсуждают переход к аллостазу — предсказательному управлению, которое заставляет нас действовать до того, как возникнет критическая потребность.

Разница фундаментальна:

  1. Гомеостаз: «Я хочу пить, поэтому я ищу воду».
  2. Аллостаз: «Я знаю, что завтра может быть засуха, поэтому сегодня я иду исследовать местность в поисках нового источника».

Этот «контроль с ориентацией на будущее» превращает агента из пассивного реактора в активного исследователя. Мы добровольно покидаем зону комфорта и увеличиваем текущую неопределенность, чтобы снизить риски в долгосрочной перспективе. В беседе приводится яркий исторический пример: социальное поведение во время эпидемий, такое как мытье рук или социальное дистанцирование. Это не инстинктивная реакция на боль, а сложная форма аллостаза, где «архитектура предсказания» вшита в саму структуру нашего поведения и культуры.


🎭 Инструментализм: Агентность как «полезная фикция» 1:34:17

Один из самых интригующих вопросов главы: является ли «агентность» (способность действовать самостоятельно) реальным физическим свойством материи или это просто удобный способ описания? Участники склоняются к позиции инструментализма.

Согласно этому взгляду, агентность — это «полезная фикция» (useful fiction) или абстракция высокого уровня. Нам удобно описывать кошку или ИИ-модель как «агентов» с целями и намерениями, потому что это дает нам колоссальную предсказательную силу. Вместо того чтобы просчитывать движение каждого атома в организме (что невозможно), мы говорим: «Агент хочет минимизировать сюрпризал».

Здесь проводится важное различие между двумя типами моделей:

Инструментализм утверждает, что если система ведет себя так, как будто у неё есть цели и границы, то для любого внешнего наблюдателя она является агентом. Это подводит к идее инструментальной конвергенции: по мере роста интеллекта любые системы (биологические или искусственные) неизбежно начинают демонстрировать агентное поведение, просто потому что это самый эффективный способ взаимодействия со сложной средой.

В конечном итоге, не так важно, «запрограммирована» ли агентность в фундаментальном коде Вселенной. Важно то, что она является необходимым математическим следствием того, как сложные системы выживают в мире, полном неопределенности.

🤖 Гонка бюджетов и когнитивный муравейник 1:44:26

Корпоративные стимулы и кризис безопасности 1:44:26

Финансовые потоки, циркулирующие сегодня в индустрии искусственного интеллекта, кардинально меняют правила игры. Тим Скэартон отмечает, что колоссальные инвестиции, приходящие из коммерческого сектора и крупного производства, форсируют исследования с беспрецедентной скоростью. Ближайшее десятилетие или два станут определяющими для архитектуры будущего цифрового общества. Однако эта коммерческая гонка порождает глубокий дисбаланс: скорость создания новых моделей значительно опережает развитие правовых институтов и наше понимание фундаментальных ограничений этих систем. Технологический прогресс движется столь стремительно, что регуляторные органы попросту не успевают сформировать систему представлений о том, что допустимо, а что нет.

Основные факторы, форсирующие этот регуляторный разрыв, включают в себя:

Мы создаем комплексные системы, механизмы внутренней работы которых нам до конца не понятны. Главный риск заключается в том, что мощные инструменты могут попасть «в плохие руки» задолго до того, как человечество выработает надежные методологии оценки угроз. Вместо планомерного анализа безопасности и создания превентивных защитных барьеров, индустрия вынуждена реагировать на инциденты постфактум, надеясь, что стандарты безопасности как-то самостоятельно сформируются в процессе эксплуатации.

Коллективный интеллект и когнитивная деградация 1:48:11

Пожалуй, наиболее тревожная долгосрочная перспектива — это не просто внешняя угроза от ИИ, а постепенная трансформация самого человечества через интеграцию с ним. Стремление людей аугментировать свои когнитивные способности технологиями приводит к тому, что наши повседневные ментальные циклы становятся неразрывно переплетены с алгоритмами. Мы добровольно становимся частью масштабного коллективного интеллекта, но эта интеграция таит в себе скрытую экзистенциальную угрозу.

Аналогия, которая здесь напрашивается, — это устройство муравейника. Отдельный муравей обладает крайне ограниченной нервной системой, но их коллективное объединение демонстрирует поразительные паттерны сложного, скоординированного поведения. Встраивая себя в качестве «узлов» в гигантские ИИ-системы, люди рискуют столкнуться с индивидуальной когнитивной деградацией. Когда функции анализа, планирования и принятия решений полностью делегируются распределенным сетям, индивидуальный человеческий разум начинает атрофироваться за ненадобностью.

Этот процесс усугубляется созданием комплексных систем управления «умными городами» на базе пространственного веба, где алгоритмы оптимизируют каждый аспект человеческой жизни. Тим Скэартон напоминает, что история цивилизаций знает немало примеров, когда чрезмерное усложнение управляющей надстройки приводило к коллапсу, поскольку отдельные элементы системы теряли свою гибкость и автономность. Попытка полностью переложить снижение энтропии и принятие ключевых решений на технологический компонент — это опасное регуляторное высокомерие. Надеяться, что коллективный разум автоматически защитит интересы каждого отдельного человека, — значит игнорировать фундаментальные законы самоорганизации.

Рыночная саморегуляция и регуляторный тупик 1:51:32

Проблема выработки защитных механизмов неизбежно сталкивается с извечной дилеммой государственного контроля и рыночной свободы. Попытки жестко зарегулировать отрасль сверху часто приводят к обратному эффекту: некачественное, поспешное регулирование способно нанести больше вреда, чем его полное отсутствие. Внедряя запреты, законодатели часто не понимают, в какой именно точке необходимо остановиться, чтобы не задушить инновации.

Собеседники переводят взгляд на классические экономические теории, замечая, что функционирование современных технологических рынков во многом напоминает прямую демократию, где пользователи голосуют за технологии своим вниманием и капиталом. В этом контексте вновь оживают идеи Адама Смита о «невидимой руке» рынка. Существует оптимистичный взгляд, согласному которому рыночная саморегуляция сработает и здесь: преследуя собственные долгосрочные интересы, игроки рынка естественным образом придут к созданию безопасных систем.

Однако Тим Скэартон выражает скепсис по поводу универсальности этой концепции для ИИ-индустрии. Сбор качественных данных и попытки выстроить публичную политику на основе предиктивных моделей далеко не всегда гарантируют гармоничный исход. Пока идеалисты верят в спонтанное возникновение безопасного порядка, реальность показывает, что коммерческие стимулы искажают баланс. Стоит отметить, что ранее в беседе спикеры вскользь упоминали математический аппарат вариационной свободной энергии и концепцию активного выведения как способы описания живых систем, но перенос этих строгих физических принципов на хаотичные социально-экономические рынки требует огромной осторожности, чтобы не превратить научный метод в опасное обобщение.

🧬 Биологические априори: от эволюции ДНК к культурным мимесисам 2:06:03

Когда мы анализируем живые системы через призму когнитивной науки, становится очевидно, что биологический мир функционирует на фундаменте колоссального накопленного опыта. Тим Скэартон (Tim Scarfe) и его собеседник ранее в разговоре касались байесовской механики и принципов активного выведения, однако на стыке двух часов беседы фокус смещается на то, как эти когнитивные механизмы масштабируются в масштабах целых поколений.

Эволюция как структурное обучение и генетические априорные ожидания 2:17:37

Эволюционный процесс в живой природе можно определить как глобальное структурное обучение длиною в миллиарды лет. Каждая молекула ДНК выступает в роли сверхсложного накопителя информации, хранящего результаты бесчисленных итераций взаимодействия организмов со средой. ДНК фактически кодирует априорные ожидания (priors) живой системы, избавляя каждое новое поколение от необходимости обучаться базовым законам выживания с нуля.

Естественный отбор работает подобно алгоритму обучения с учителем, где выживание или гибель популяции жестко корректируют веса в генетическом коде. В результате агент рождается со сформированной «моделью себя» (self model), которая идеально адаптирована под конкретный тип окружающей среды. Живой организм изначально имеет жесткие допущения о физических условиях, в которых ему предстоит функционировать.

Генетический код навязывает организму базовую иерархию ограничений:

Человек представляет собой эволюционный продукт, несущий в себе не только физиологические черты, но и фундамент для формирования личности и темперамента. Без этой предзаданной структуры живой агент просто не смог бы сориентироваться в хаотичном потоке внешних стимулов.

Культурный слой: миметическое копирование и социальные генеративные модели 2:23:14

Если эволюция подготавливает организм к физическому миру, то социальное взаимодействие требует совершенно иного уровня адаптации — культурного слоя, который накладывается поверх биологического. Люди оказываются укоренены в самых разных обществах, и огромная часть их когнитивного багажа передается через социальное обучение. Обучение ребенка правилам поведения, речи и традициям формирует надстройку над его первичными биологическими априори. Главным инструментом здесь выступает имитация.

Усвоение культурных норм превращает внешние правила в неотъемлемый элемент генеративной модели человеческого мозга. Примером такого тонкого социального программирования может служить обыденное наблюдение на свадьбе кузена. Присутствующие там люди общались и весьма осторожно, робко приветствовали друг друга ритуальными поцелуями. Это деликатное взаимодействие демонстрирует, как сильно наши априорные ожидания сужают спектр возможных поведенческих актов. Из миллионов теоретически возможных физических движений человек выбирает именно те, которые предписаны социальным кодом конкретного сообщества.

Такой подход можно охарактеризовать как современную инкарнацию бихевиоризма, но с важнейшей оговоркой: классический бихевиоризм игнорировал внутреннее устройство системы, тогда как когнитивная модель живого агента полностью сфокусирована на процессах, происходящих внутри разума и мозга. Внутреннее мышление и вычисления определяют, какие социальные действия в данный момент времени обладают наибольшей вероятностью, а какие недопустимы.

Термин «миметический» в своей основе означает тривиальное копирование. Однако за этим простым механизмом скрывается передача сложнейших поведенческих паттернов и способов структурирования информации. Этот социальный аспект обмена знаниями позволяет человечеству масштабировать свои когнитивные способности со скоростью, недоступной для слепого биологического отбора.

🧠 Активное выведение против классического обучения с подкреплением: новый взгляд на природу агентности 2:31:08

В финальной части глубокого полилога на канале Machine Learning Street Talk ведущий Тим Скэартон (Tim Scarfe) подводит дискуссию к её кульминационной точке — сопоставлению подходов к моделированию разумного поведения. Ранее в разговоре собеседники детально разбирали базовый принцип свободной энергии и контуры байесовской механики, сформировавшейся как самостоятельное направление примерно к 2018 году, а также рассматривали действие как инструмент минимизации неожиданности и роль марковских границ. В этом завершающем фрагменте фокус смещается на макроуровень: как именно живые и искусственные системы принимают решения, планируют будущее и выбирают оптимальные траектории в сложном пространстве состояний. Центральной темой становится концептуальное и математическое противостояние классического обучения с подкреплением (Reinforcement Learning, RL) и парадигмы активного выведения (Active Inference).

Кризис слепого поиска: где буксует Reinforcement Learning 2:41:21

Традиционное обучение с подкреплением (RL) на протяжении десятилетий оставалось главным и практически безальтернативным методом построения автономных агентов в искусственном интеллекте. Однако его фундаментальное ограничение кроется в извечной дилемме исследования и эксплуатации (exploration-exploitation dilemma). Обычный RL-агент мотивирован исключительно максимизацией внешней функции вознаграждения, из-за чего его поисковая активность часто носить хаотичный характер. На практике инженерам приходится внедрять сложные эвристические надстройки, такие как инверсное обучение с подкреплением на основе максимальной энтропии (maximum entropy inverse reinforcement learning), чтобы хоть как-то стимулировать гибкость поведения модели.

Проблема классического RL становится критической, когда внешние награды в среде оказываются разреженными или отсутствуют вовсе. Без постоянных «подсказок» в виде штрафов и бонусов агент моментально теряет эффективность. Активное выведение предлагает принципиально иной, более глубокий и математически строгий способ исследования среды. Этот подход полностью отказывается от парадигмы искусственно насаждаемых извне наград. Вместо этого поведение агента выводится напрямую из его стремления к выживанию и удержанию своих термодинамических и структурных свойств, что на когнитивном уровне выражается как минимизация вариационной свободной энергии.

Эпистемическая ценность: математика истинного любопытства 2:42:55

В отличие от традиционных ИИ-систем, где сбор информации является лишь случайным побочным продуктом погони за очками вознаграждения, в активном выведении познание возведено в ранг непреложного закона. Процесс выбора действий здесь строго математически разделяется на прагматическую ценность (непосредственное достижение целевых состояний) и эпистемическую ценность (epistemic value). Эпистемическая ценность определяет, насколько то или иное действие способно уменьшить неопределенность агента относительно скрытых параметров окружающего мира.

Благодаря такому подходу у агента активируется нативное, заложенное в саму формулу управления поведение любопытства (curious behavior). Агент приобретает выраженную способность к автономному «фуражированию за новой информацией» (forage for new information).

Выбор поведенческих путей в рамках активного выведения всегда подчиняется следующим критериям:

Такое целенаправленное информационное исследование позволяет полностью избежать слепого блуждания, свойственного стандартным агентам машинного обучения.

Ожидаемая свободная энергия как универсальный компас агента 2:41:34

Главным математическим инструментом, позволяющим агенту заглядывать в будущее и осуществлять планирование, выступает ожидаемая свободная энергия (Expected Free Energy). Если классическая вариационная свободная энергия используется для оценки текущего состояния, коррекции восприятия и изменения внутренней модели «здесь и сейчас», то ожидаемая свободная энергия рассчитывается для гипотеческих путей и долгосрочных сценариев.

Агент пытается определить наилучшую последовательность шагов, опираясь на доступный массив информации и свои изначальные ожидания о стабильности. Этот процесс разворачивается как инференциальное планирование (inferential learning), в ходе которого система вычисляет, какие конкретно действия ей необходимо предпринять, чтобы вернуться в безопасные, стабильные состояния. Ожидаемая свободная энергия изящно упаковывает в одно уравнение и прагматическое стремление к цели, и эпистемическую тягу к новым знаниям. Это делает активное выведение гораздо более фундаментальной, адаптивной и биологически обоснованной архитектурой, чем классическое обучение с подкреплением. Подводя итог этой масштабной дискуссии, Тим Скэартон и его коллега Санджив (Sanjiv) подчеркивают, что именно эти скрытые математические принципы лежат в основе функционирования любых живых систем.

💬 Цитаты

«Агентность — это полезная фикция, абстракция, которая позволяет нам эффективно описывать поведение систем в их взаимодействии со средой.»

«Байесовская механика — это ответ на вопрос Шрёдингера 'Что такое жизнь?', дополняющий физику описанием статистических убеждений систем.»

«Агент может не только менять модель под мир, но и менять мир под свои ожидания через активное воздействие на среду.»

«active inference offers a more principled way of exploring the environment through epistemic value and expected free energy.»

«They don't feel the wind on their face... It acts as if it can reason.»

👥 Спикер
📚 Упомянутые книги
📖 Термины
Сюрпризал (surprisal)
Математическая мера неожиданности данных для модели; системы стремятся минимизировать её для выживания.
Активное выведение (Active Inference)
Фреймворк, объясняющий действие как способ минимизации вариационной свободной энергии и снижения неопределенности.
Граница Маркова
Статистическая граница, отделяющая внутренние состояния агента от внешних, обеспечивая их автономность.
Искусственный интеллект Active Inference Байесовская механика Принцип свободной энергии Стюарт Кауффман