# JEPA: Как Ян Лекун планирует создать автономный ИИ через модели мира

Источник: https://www.youtube.com/watch?v=jSdHmImyUjk
Канал: Yannic Kilcher
Опубликовано: 06.07.2022

---

Ян Лекун, один из «крестных отцов» современного глубокого обучения и лауреат премии Тьюринга, представил концептуальную работу, описывающую путь к созданию автономного машинного интеллекта. В центре его предложенной архитектуры лежит JEPA (Joint Embedding Predictive Architecture) — модель, которая, по мнению автора, позволит машинам учиться так же эффективно, как это делают люди и животные, за счет предсказания состояний мира в абстрактном латентном пространстве.

## 🧠 Видение Яна Лекуна: Архитектура для автономного интеллекта
[[JUMP:00:00]]

Янник Килчер начинает обзор с анализа статьи Яна Лекуна «A Path Towards Autonomous Machine Intelligence» [00:14]. Этот документ представляет собой не просто описание конкретного алгоритма, а «позиционную статью» (position paper), в которой излагается общее видение того, как преодолеть ограничения современных нейросетей [01:34].

По мнению Лекуна, нынешние системы глубокого обучения слишком «жадны» до данных, не способны к планомерному рассуждению и не умеют строить иерархические планы на различных временных горизонтах [00:53]. Основные цели предложенной архитектуры включают:

*   **Эффективное обучение:** достижение уровня обучения, сравнимого с биологическими существами.
*   **Рассуждение и планирование:** способность системы предсказывать последствия действий.
*   **Иерархия абстракций:** представление мира на разных уровнях — от пикселей до высокоуровневых концепций [00:41].

Килчер отмечает, что архитектура JEPA является «центральной деталью» этого пазла [00:27]. Она задумана как дифференцируемая система, где каждый модуль может быть обучен с помощью градиентного спуска [02:12].

## 🌍 Мир как латентное пространство: Суть JEPA
[[JUMP:03:43]]

Ключевое отличие JEPA от популярных генеративных моделей (таких как GPT или традиционные автоэнкодеры) заключается в том, что она является **негенеративной** [02:25]. Вместо того чтобы пытаться предсказать каждый пиксель следующего кадра видео или каждое слово в тексте, JEPA предсказывает *латентное представление* будущего состояния [09:16].

В этой схеме участвуют два основных компонента:

1.  **Энкодеры:** переводят входные данные (например, изображения) в абстрактные векторы (латентное пространство) [06:42].
2.  **Предиктор:** предсказывает, каким будет латентный вектор `y` на основе латентного вектора `x` и возможного действия [08:50].

Янник объясняет, что такой подход позволяет модели игнорировать нерелевантные детали [38:29]. Если по улице едет автомобиль, модели не нужно предсказывать движение каждого листика на дереве на заднем плане; ей достаточно предсказать траекторию машины в абстрактном пространстве [38:56]. По мнению Лекуна, это единственный способ избежать «проклятия размерности», которое делает предсказание сырых данных в высоком разрешении практически невозможным для сложных задач планирования [03:05].

## 🕹️ Режимы работы: Реактивное поведение против планирования
[[JUMP:05:49]]

Лекун разделяет работу интеллекта на два режима, проводя аналогию с теорией Даниэля Канемана о «быстром» и «медленном» мышлении [06:15].

### Режим 1: Реактивный эпизод
Это «подсознательное» действие. Сигнал идет напрямую от восприятия к актору (исполнителю), минуя модель мира [06:28]. Актор просто выдает действие на основе текущего кадра. Так работают современные алгоритмы Model-Free Reinforcement Learning: они долго тренируются на наградах, а затем действуют мгновенно [07:45].

### Режим 2: Планирование (Mode 2)
Здесь в игру вступает **модель мира** [08:12]. Система не просто действует, она «проигрывает» возможные варианты будущего в своей голове:

*   Актор предлагает последовательность действий [08:48].
*   Модель мира предсказывает латентные состояния для каждого шага [09:54].
*   Блок «критик» или функция стоимости оценивает, насколько результат соответствует цели [11:03].

Килчер подчеркивает важный технический нюанс: поскольку все модули JEPA дифференцируемы, система может использовать **градиентный спуск во время инференса** [11:29]. Это означает, что нейросеть может оптимизировать свою последовательность действий «на лету», подправляя их так, чтобы минимизировать общую «энергию» (стоимость) [13:01]. Это похоже на то, как создаются состязательные примеры (adversarial examples), но используется для поиска оптимального плана [11:41].

## 🛡️ Борьба с коллапсом: Регуляризация против контраста
[[JUMP:29:44]]

Одной из главных проблем архитектур с совместным встраиванием (Joint Embedding) является **коллапс** [25:02]. Если модель просто минимизирует расстояние между предсказанием и реальностью, она может «схитрить»: энкодеры начнут выдавать одну и ту же константу для любых входных данных [29:06]. В таком случае предсказание всегда будет идеальным, но абсолютно бесполезным.

Ян Лекун выделяет два способа борьбы с этим:

1.  **Контрастивные методы:** подавать модели «плохие» примеры и заставлять ее увеличивать расстояние между ними [32:13]. Однако в высоких размерностях найти информативные отрицательные примеры крайне сложно [35:07].
2.  **Регуляризационные методы (выбор Лекуна):** накладывать ограничения на саму структуру латентного пространства [35:33].

Для предотвращения коллапса в JEPA используются три типа регуляризации [42:39]:

*   Минимизация информативности латентной переменной `z` (чтобы она не могла просто «переносить» ответ `y`) [39:50].
*   Максимизация информативности представлений `x` и `y` (чтобы они не превращались в константу, а использовали весь объем доступного пространства) [41:18].
*   Использование таких методов, как VICReg или Barlow Twins, которые заставляют ковариационную матрицу представлений быть близкой к единичной, предотвращая схлопывание признаков [43:06].

## 🧬 Иерархия и эмоции машин
[[JUMP:47:03]]

Финальная форма концепции — **Hierarchical JEPA (H-JEPA)**. Она позволяет планировать на разных уровнях абстракции [47:16]. Высокоуровневая модель может поставить задачу «доехать до аэропорта» (длинный временной горизонт), а низкоуровневая — расшифровать это в конкретные движения рулем и педалями [49:14].

В завершение Янник цитирует довольно смелые философские выводы Лекуна [53:15]:

*   **Эмоции:** Лекун утверждает, что интеллектуальные агенты неизбежно будут обладать эквивалентом эмоций, так как эмоции — это предвкушение результата, рассчитанное критиком [53:44].
*   **Здравый смысл:** Он может возникнуть как побочный продукт обучения моделей мира, которые замечают нарушения логики и согласованности событий [54:10].
*   **Символы:** Лекун полагает, что на очень высоких уровнях абстракции мир становится настолько дискретным, что традиционные методы поиска (например, поиск по деревьям Монте-Карло) могут заменить градиентный спуск [55:44].

Автор ролика резюмирует, что хотя многие детали архитектуры пока остаются «расплывчатыми» (hand-wavy), JEPA предлагает фундаментально иной путь развития ИИ, отличный от простого масштабирования языковых моделей [52:48].