Как добавить знания в ИИ-агентов с помощью принципа свободной энергии

Как объединить фундаментальную физику, теорию познания и современное машинное обучение для создания безопасного и понятного искусственного интеллекта? В новом интервью на научно-популярном канале Machine Learning Street Talk ведущий Тим Скарфе (Tim Scarfe) и приглашённый эксперт Коннор Лин (Connor Leahy) детально обсуждают физические основы разума, ограничения глубокого обучения и парадигму активного вывода. Центральной темой беседы становится поиск баланса между вычислительной мощностью и врождёнными когнитивными знаниями (core knowledge) для создания ИИ общего уровня.

🧠 Физический фундамент интеллекта и принцип свободной энергии 0:00

Коннор Лин делится своей личной историей перехода из чистой математики в нейронауку и сферу искусственного интеллекта. По его словам, классический подход на основе глубокого обучения (deep learning) быстро разочаровал его отсутствием математической строгости, теорем и строгих гарантий безопасности. Это подтолкнуло эксперта к изучению принципа свободной энергии (Free Energy Principle, FEP), разработанного знаменитым нейробиологом Карлом Фристоном (Karl Friston). Коннор Лин утверждает, что его диссертационное исследование посвящено созданию железобетонного математического фундамента, который доказывает: любой физический интеллектуальный агент неизбежно минимизирует свободную энергию в процессах восприятия и принятия решений.

Фундаментальное допущение принципа заключается в том, что любой агент имеет чёткую границу с окружающей средой, через которую происходит непрерывный обмен информацией. Согласно описанной Лином кибернетической петле, эта граница разделена на два типа состояний:

Сенсорные состояния (sensory states): внешняя среда воздействует на органы восприятия агента (например, зрение).
Активные состояния (active states): мозг агента влияет на эти состояния, заставляя его совершать движения и совершать действия в физическом мире.

Коннор Лин объясняет, что если описать эти динамические процессы через наиболее общую модель — стохастические дифференциальные уравнения (stochastic differential equations), на которых строится вся статистическая физика и квантовая механика, — то математически доказывается неизбежность минимизации свободной энергии внутренними состояниями системы. Проводя этот процесс, мозг фактически выводит (инферирует) истинное устройство окружающей среды на основе доступных ему разрозненных наблюдений.

🦎 Ограничения текущей теории и переход к «Интеллекту 2.0» 8:03

Тим Скарфе отмечает привлекательность идеи существования «физики интеллекта» и подчёркивает, что определение через FEP является наименее антропоморфным из всех существующих. Оно позволяет интегрировать распределённые когнитивные системы, когда совокупность множества умов может функционировать как единое целое.

Однако Коннор Лин признаёт наличие проблемы: из-за минимального количества ограничений в текущей математической формулировке принцип свободной энергии применим к чему угодно — от вирусов, клеток и птиц до обычных камней. По мнению гостя, наука сейчас находится на стадии «Интеллекта 1.0». Вся доступная на сегодня математическая база описывает когнитивные функции слишком грубо и обобщённо. По утверждению Лина, главная цель сообщества на ближайшие годы — рафинировать принцип свободной энергии до версий «2.0» и «3.0», чтобы уравнения описывали специфические алгоритмы работы именно высокоразвитого мозга.

Собеседники сходятся во мнении, что биологическое правдоподобие выгодно отличает активный вывод от современных искусственных нейросетей. Ведущий сравнивает агентов на базе FEP с системами искусственной жизни (такими как клеточные автоматы), но указывает, что активный вывод предлагает идеальный «срединный путь» — он сочетает в себе динамику живых систем и высокую управляемость (steerability), доступную благодаря внедрению когнитивных примитивов или трансформерных кодировщиков.

🏗️ Три столпа нового ИИ и проблема структурного обучения 13:47

По оценке Коннора Лина, современный прогресс в области искусственного интеллекта опирается на три ключевых элемента:

Принцип свободной энергии: задает фундаментальные математические уравнения для реализации интеллектуального поведения.
Врождённые базовые знания (core knowledge): определяют стартовые априорные представления агента об окружающем мире.
Инженерные методы глубокого обучения: позволяют масштабировать создаваемые модели.

Главная технологическая трудность на текущий момент, по мнению Лина, заключается в том, что алгоритмы активного вывода пока не масштабируются должным образом. Ключом к преодолению этого барьера должно стать структурное обучение (structural learning) — способность агента самостоятельно выстраивать рабочую модель незнакомой среды с нуля. Человеческие младенцы справляются с этим превосходно, исследуя комнату методом проб и ошибок и быстро понимая геометрию расположения стульев и стен.

В машинном обучении это превращается в чрезвычайно сложную задачу оптимизации. Коннор Лин приводит пример: если агент пытается описать комнату, $99.99999\%$ из всех теоретически возможных математических моделей мира окажутся полным мусором, не имеющим отношения к физической реальности. Из-за колоссальной размерности этого пространства ни одна лаборатория в мире пока не способна эффективно решить задачу структурного обучения.

⚔️ Дебаты: «Горький урок» Рича Саттона против врождённых знаний 19:47

Тим Скарфе напоминает о давней дилемме смещения и дисперсии (bias-variance trade-off) и знаменитом эссе Рича Саттона (Rich Sutton) «Горький урок» (The Bitter Lesson). Саттон утверждал, что любые попытки человека вручную заложить в ИИ симметрии, правила или человеческие знания исторически проигрывали простому увеличению масштаба вычислений. Ведущий добавляет, что после эры экспертных систем и периода увлечения чистым обучением с подкреплением индустрия с выходом ChatGPT снова вернулась к ИИ, наполненному закодированными знаниями людей.

Коннор Лин рассказывает, что на прошлогодней конференции RLDM (Reinforcement Learning and Decision Making) этот раскол проявился максимально ярко. На мероприятии столкнулись два непримиримых лагеря:

Сторонники чистого RL и вычислительной мощности (исследователи из DeepMind, Рич Саттон, Эндрю Барто), отстаивающие лозунг «награды достаточно» (reward is enough). Они считают, что огромный массив вычислений сам заставит агента вывести необходимые законы мира.
Когнитивные учёные и нейробиологи (Питер Дайан, Джош Таненбаум), стремящиеся воссоздать человеческую эффективность обучения и опирающиеся на врождённые структуры.

По мнению Лина, разница позиций обусловлена несовпадением конечных целей. Саттон не пытается скопировать человеческий мозг, он хочет высвободить потенциал машин, не ограничивая их нашими рамками. Именно так системы вроде AlphaGo находят «инопланетные», гениальные ходы в шахматах или го.

Тем не менее, Скарфе парирует, что успехи систем без врождённых знаний во многом иллюзорны. Ведущий называет это «проблемой швейцарского сыра»: нейросети выучивают лишь многомерное подпространство (манифольд), внутри которого зияют огромные дыры. Недавние исследования доказали, что при столкновении с нестандартной состязательной (adversarial) стратегией человека AlphaGo внезапно теряет весь свой «суперинтеллект» и начинает совершать глупые ошибки, как маленький ребёнок. Скарфе подчёркивает, что современные бенчмарки (например, приписывание GPT-4 рейтинга ELO 1800 в шахматах) глубоко ошибочны, поскольку они необоснованно экстраполируют возможности машин на человеческую модель интеллекта.

🧩 Врождённые знания Элизабет Спелке как ключ к оптимизации 17:59

Коннор Лин убеждён, что единственным способом решить сложнейшую проблему структурного обучения является использование фундаментальных врождённых знаний (core knowledge). Он ссылается на знаменитую работу американского когнитивного психолога Элизабет Спелке (Elizabeth Spelke), выделившей шесть врождённых систем когнитивных паттернов, с которыми рождается каждый человек (включая базовое понимание геометрии пространства, объектов и агентов).

Если реверс-инжинирить эти системы и заложить их как жесткие априорные ограничения (priors) в поисковые алгоритмы активного вывода, это радикально уменьшит размерность пространства поиска. В качестве примера Лин приводит концепцию постоянства объектов (object permanence) — знание о том, что предмет не исчезает, когда мы закрываем глаза. Для человека это очевидно, но для ИИ это мощнейший фильтр, отсекающий триллионы ошибочных моделей мира. Тим Скарфе соглашается, напоминая, что в мозге человека за пространственные репрезентации физически отвечают врождённые нейроны места и нейроны решётки (grid and place cells).

⏳ Проблема склеротизации систем и байесовская редукция 30:04

Собеседники детально анализируют гибкость интеллекта. Опираясь на положения FEP, Коннор Лин утверждает, что по мере старения любой агент неизбежно специализируется на своей узкой среде обитания. Его априорные и апостериорные вероятности (posteriors) становятся чрезвычайно резкими, повышая эффективность работы, но драматически снижая адаптивность. Скарфе удачно сравнивает этот процесс с алгоритмом имитации отжига (simulated annealing), где по мере падения «температуры» снижается масштаб флуктуаций. Младенцы гипотетически способны мгновенно адаптироваться к чуждым мирам (например, к виртуальному белому пространству из фильма «Матрица»), поскольку их ментальные карты ещё не закостенели.

В XXI веке, в эпоху экспоненциального технологического прогресса, эта биологическая особенность человека становится его главной слабостью, считает гость. Лин цитирует известное высказывание о том, что важнейшим навыком современности становится умение непрерывно учиться, разучиваться и переучиваться (learn, unlearn, relearn). Но человеческому мозгу крайне трудно «стирать» старые паттерны.

У искусственных агентов здесь есть колоссальное преимущество перед людьми благодаря математическому механизму байесовской редукции моделей (Bayesian model reduction). Разработчик может программно запустить процесс «прунинга» (отсечения лишних связей) в генеративной модели робота, заставляя его безболезненно разучиться старым привычкам и мгновенно адаптироваться к новым условиям. Впрочем, Скарфе предлагает альтернативный инженерный взгляд: во многих практических задачах вместо долгого переобучения и усложнения старого агента гораздо быстрее и дешевле просто программно «убить» его и запустить на его место новую, чистую копию.

🛡️ Безопасность, объяснимость и факторные графы 34:57

Отвечая на вопрос ведущего о практических преимуществах FEP перед классическим мультиагентным обучением с подкреплением, Коннор Лин указывает на два фундаментальных фактора — безопасность (safety) и объяснимость (explainability).

В современных коммерческих проектах, таких как беспилотные автомобили или роботы-ассистенты для хирургических операций, ставки слишком высоки, а человеческая жизнь бесценна. Однако нейросети глубокого обучения представляют собой «чёрный ящик»: инженеры не способны точно восстановить математическую причину, почему машина совершила опасный маневр. Проекты беспилотников буксуют годами именно по этой причине. Активный вывод решает эту проблему радикально: описание интеллекта здесь предельно лаконично, и любое действие робота можно досконально проследить до конкретного уравнения минимизации свободной энергии или элемента встроенной генеративной модели мира.

Чтобы добиться абсолютной интерпретируемости, исследовательская группа Карла Фристона и Коннора Лина в компании Verses сейчас полностью отказывается от использования глубоких нейросетей внутри ИИ-агентов, заменяя их факторными графами (factor graphs). В таком графе:

Каждый отдельный узел (фактор) строго соответствует конкретному физическому представлению о реальности.
Ребра графа наглядно демонстрируют, как эти представления влияют друг на друга, полностью визуализируя поток передачи сообщений (message passing) между виртуальными «нейронами» агента.

Более того, математика FEP требует, чтобы свободная энергия раскладывалась на две составляющие — точность минус сложность ($accuracy - complexity$). Оптимизируя этот показатель, ИИ-агент под воздействием математического давления стремится самостоятельно упрощать свой факторный граф, отсекая избыточные связи и превращаясь в идеально читаемую «белую коробку».

🎯 Схождение подходов и триумф sample efficiency 46:11

В финале беседы Коннор Лин выражает восхищение тем фактом, что группа Джоша Таненбаума в Массачусетском технологическом институте пришла к абсолютно аналогичным математическим моделям, но совершенно с другой стороны. Если команда Лина двигалась «сверху вниз» от абстрактной теоретической физики и математики, то когнитивисты Таненбаума шли «снизу вверх», скрупулезно изучая поведение людей и создавая аппроксимирующие модели. В итоге их формулы оптимального выбора решений полностью совпали с концепцией ожидаемой свободной энергии (expected free energy), гармонично сочетающей в себе ожидаемую полезность действий (expected utility) и ожидаемый прирост информации (expected information gain).

В качестве важнейшего доказательства Лин приводит их совместное исследование по обучению на основе теорий (theory-based reinforcement learning). Исследователи поместили агента активного вывода в симулированную игровую среду Atari и сравнили скорость его обучения с реальными людьми, впервые севшими за игру. Результаты оказались сенсационными:

Идентичная эффективность выборки (sample efficiency): ИИ-агент освоил правила игры за то же самое количество шагов, что и человек.
Идентичные траектории обучения: паттерны ошибок и открытий у алгоритма полностью копировали человеческое поведение.

Коннор Лин подчеркивает, что в данном эксперименте у ИИ изначально даже не было вшитых систем врождённых знаний Спелке (их добавление в последующих работах сделало систему ещё эффективнее). Данный успех служит фундаментальным доказательством (proof of concept) того, что физически обоснованная архитектура активного вывода способна воспроизводить человеческие когнитивные функции. Именно этот путь, по мнению обоих исследователей, позволит преодолеть ограничения современных нейросетей и создать по-настоящему адаптивный, безопасный искусственный интеллект.