Мидо Ассран описал работу предиктивной архитектуры ИИ V-JEPA

В новом выпуске подкаста The TWIML AI Podcast исследователь из группы Meta FAIR Мидо Ассран подробно рассказал об архитектуре V-JEPA, разрабатываемой в рамках концепции перспективного искусственного интеллекта Яна Лекуна. В отличие от популярных генеративных моделей, данный подход предлагает ИИ обучаться пониманию физического мира через предсказание абстрактных признаков в скрытом пространстве. По мнению авторов проекта, это позволит преодолеть колоссальный разрыв в эффективности обучения между человеком и машиной.

🧠 Эволюционный разрыв: почему ИИ учится хуже человека 1:33

Мидо Ассран отмечает фундаментальную проблему современного машинного обучения: огромный разрыв в эффективности между человеком и компьютерными алгоритмами. Человеческий мозг потребляет ничтожно мало энергии — её эквивалент сопоставим с мощностью обычной электрической бритвы. При этом человеку достаточно увидеть всего один пример нового объекта, чтобы полностью усвоить и понять стоящую за ним концепцию.

Напротив, современные нейросети требуют тысяч часов обучения, миллионов примеров данных и гигантских вычислительных мощностей для достижения сопоставимых результатов. Предыдущие исследования Мидо Ассрана и его коллег были сосредоточены на обучении без учителя (self-supervised learning) для статических изображений. Однако эти методы имели специфические индуктивные смещения, жестко привязанные к специфике двумерных картинок. Чтобы создать универсальный интеллект, способный воспринимать мир через видео, аудио и другие модальности, команда пересмотрела базовые принципы и обратилась к концепции перспективного машинного интеллекта (Advanced Machine Intelligence, AMI), сформулированной шеф-пилотом ИИ-направлений Meta Яном Лекуном.

Развитие человеческого ребенка наглядно демонстрирует силу пассивного наблюдения. Как напоминает Мидо Ассран, когнитивные ученые проводят классические тесты с младенцами, чтобы зафиксировать ключевые этапы понимания мира:

Понимание постоянства объектов (object permanence) — осознание того, что скрытый за преградой предмет не исчезает из реальности.
Согласованность движения (motion consistency) — базовое понимание траекторий и непрерывности перемещения физических тел.
Согласованность формы (shape consistency) — восприятие трехмерной геометрии объектов при изменении ракурса.

Все эти базовые концепции развиваются у детей в течение первых 10–11 месяцев жизни — задолго до того, как у них формируется способность к речи. Архитектура JEPA стремится воспроизвести этот биологический механизм, позволяя ИИ учиться на основе непрерывного пассивного наблюдения за видеопотоком.

🔍 Архитектура JEPA: предсказание абстракций вместо пикселей 3:20

Математическая основа концепции JEPA (Joint Embedding Predictive Architecture) выглядит абстрактно и универсально. В окружающей среде существуют два связанных между собой сигнала — $X$ и $Y$. Вместо того чтобы заставлять модель предсказывать сырой сигнал $Y$ на основе $X$, как это принято во многих классических подходах, JEPA предсказывает кодированные представления (эмбеддинги) сигнала $Y$ на основе кодированных представлений сигнала $X$.

Мидо Ассран подробно объясняет критическую разницу между предсказанием на уровне пикселей и предсказанием в пространстве абстрактных признаков:

Вычислительная сложность — попытка воссоздать каждый пиксель изображения невероятно требовательна к ресурсам.
Целеполагание модели — если задача инженера заключается в создании генеративной модели для отрисовки красивого контента, попиксельное восстановление оправданно. Но если цель — построение модели мира (world model) для рассуждений, планирования и принятия решений целеориентированным агентом, ИИ не должен тратить свою емкость на кодирование визуального шума.

«Зачем тратить ресурсы сети на моделирование каждой травинки, каждой детали чистого голубого неба или формы облака?» — задается вопросом Мидо Ассран. По мнению исследователя, это неэффективно, и именно этот тупик преодолевает JEPA, перенося задачу предсказания в скрытое пространство эмбеддингов.

🛡️ Борьба с коллапсом представлений и важность совместного обучения 8:05

При переносе предсказаний в пространство эмбеддингов исследователи сталкиваются с серьезным вызовом. Эмбеддинги могут находиться в двух крайностях. В худшем случае они вообще не производят семантической abstraction, сохраняя весь исходный сигнал. В противоположном сценарии возникает так называемый коллапс представлений (representation collapse). Сеть начинает выдавать константный вектор для любых входных данных, делая задачу предсказания тривиально легкой, но абсолютно бесполезной, поскольку модель перестает извлекать информацию.

Сложность ситуации в V-JEPA усугубляется тем, что и кодировщик (encoder), и предсказатель (predictor) инициализируются полностью случайно и обучаются совместно. Команда сознательно отказалась от использования предобученных сетей, чтобы проверить гипотезу о возможности самозагрузки системы с нуля.

Как подчеркивает Мидо Ассран, совместное обучение критически важно, поскольку оно заставляет кодировщик выделять только те признаки, которые обладают предсказательной силой. Вся непредсказуемая, хаотичная или избыточная информация отсеивается естественным путем. Чтобы предотвратить коллапс представлений, разработчики интегрировали математические методы, ранее созданные в сообществе самообучающегося ИИ, заставив систему балансировать на грани между избыточным усложнением и тривиальностью.

🎭 Стратегия маскирования: как заставить нейросеть понимать смысл 12:26

Чтобы запустить процесс обучения, V-JEPA использует метод маскирования данных, позаимствованный из сферы обработки естественного языка (NLP). Однако прямое копирование текстовых подходов в компьютерное зрение приводило к провалу. Если в видео или изображении случайным образом замаскировать мелкие разрозненные пиксельные патчи, нейросеть мгновенно учится восстанавливать их за счет простого анализа соседних видимых областей. В таком режиме модель не создает глубоких семантических абстракций и демонстрирует низкое качество представлений.

Решением в V-JEPA стало крупноблочное пространственно-временное маскирование. Алгоритм вырезает огромные куски видео на протяжении всей его временной длительности. Единственный способ для сети угадать, что находилось в скрытой области, — это понять внутреннюю семантику происходящего, логику движения объектов и их взаимодействия.

На текущем этапе маскирование в V-JEPA реализовано через эвристические алгоритмы: система случайно выбирает блоки и объединяет их, скрывая до 90% всего видеоряда. Мидо Ассран признает, что в идеале выбор маскируемых зон должен быть обучаемой частью самой нейросети. По мнению гостя, модель должна учиться самостоятельно определять и скрывать именно семантически важные области — объекты, их физические контакты и ключевые временные точки, где разворачиваются интересные события, подобно тому, как меняется фокус визуального внимания у развивающихся детей.

⚙️ Технологический конвейер: трансформеры и токенизация видео 17:33

Хотя концепция JEPA задает общую верхнеуровневую философию, её практическая реализация в V-JEPA опирается на передовые инструменты современного ИИ-инжиниринга. В качестве кодировщика выступает классическая архитектура Vision Transformer (ViT), а предсказатель построен на базе стандартного трансформера с механизмами самовнимания (self-attention), многослойными перцептронами (MLP) и остаточными связями (residual connections).

Поскольку трансформеры по умолчанию не обладают встроенным пониманием пространственных расстояний в кадре или временных интервалов в видео, команда применила специальную процедуру токенизации. Процесс обработки видео выглядит следующим образом:

Каждые два последовательных кадра разбиваются на пространственные патчи размером 16 на 16 пикселей.
Этот объемный фрагмент (16х16х2) преобразуется в единый вектор — токен.
Весь видеоролик превращается в плоскую последовательность таких токенов.

Благодаря жесткой стратегии маскирования, скрывающей 90% данных, кодировщику-трансформеру приходится обрабатывать всего 10% от общего числа токенов видео. Это инженерное решение обеспечивает колоссальный прирост вычислительной эффективности, превосходя традиционные архитектуры.

📊 Оценка без тонкой настройки: «внимательные пробы» и пулинг признаков 20:54

Исторически в сфере компьютерного зрения доминировал подход полной сквозной настройки (end-to-end fine-tuning), при котором обученная видеомодель полностью перестраивалась под каждую конкретную задачу, становясь узкоспециализированной. В проекте V-JEPA ученые пошли принципиально иным путем, сделав ставку на оценку «замороженного» кодировщика (frozen evaluation). Обученная без какого-либо человеческого контроля нейросеть полностью блокируется от изменений, а поверх неё обучаются исключительно легковесные, крошечные модели под конкретные прикладные задачи.

Главной инженерной сложностью стал перевод огромной карты признаков, которую выдает трансформер на выходе (один вектор на каждый входной токен), в единый компактный вектор для классификатора. Стандартное усреднение (average pooling) уничтожает внутреннюю структуру эмбеддингов, если семантические концепты в скрытом пространстве не разделяются линейно. Для решения этой проблемы авторы внедрили механизм пулинга на основе запросов (query-based feature pooling). Это один слой кросс-внимания, где специальный обучаемый токен собирает информацию со всей карты признаков, трансформируя её в итоговый вектор без потери структуры.

Этот тандем из пулинга и микро-классификатора получил название «внимательной пробы» (attentive probe). В ходе экспериментов V-JEPA продемонстрировала высокие результаты на различных типах задач, тестируемых изолированно:

Грубое распознавание действий (coarse-grained action recognition) — классификация базовых сюжетов, таких как глажка белья, складывание одежды или удар по мячу.
Тонкое временное распознавание (fine-grained temporal recognition) — фиксация сложных микро-действий, критически зависящих от времени. Модель успешно отличает имитацию броска от реального броска, движение предмета влево-вправо от движения вправо-влево, а также понимает контекст, когда человек делает вид, что кладет вещь в коробку, но в последний момент убирает руку.

⏳ Временные горизонты и концепция иерархического предсказания 26:25

В процессе предварительного обучения V-JEPA оперирует короткими фрагментами видео длительностью от 3 до 3,5 секунд, маскируя их части для построения прогнозов. При этом на этапе инференса (вывода) модель способна масштабироваться и обрабатывать ролики длиной до 30 секунд. Однако долгосрочное прогнозирование на минуты или часы вперед остается фундаментальным вызовом.

Как отмечает Мидо Ассран, если дать модели 10 минут видео и заставить её предсказать следующие 10 минут, динамика обучения кардинально изменится. На коротком отрезке в 3 секунды предсказуемы физические микро-движения и траектории, поскольку они подчиняются инерции. На масштабе в 10 минут физические детали становятся принципиально непредсказуемыми, и фокус смещается на верхнеуровневую семантику событий.

По мнению исследователя, решением этой проблемы должна стать концепция иерархической JEPA (hierarchical JEPA), предложенная Яном Лекуном, но пока не реализованная в V-JEPA. Такая архитектура должна вести предсказание одновременно на множестве временных шкал и уровней абстракции, не уничтожая микроструктуру ради глобального сюжета, и наоборот.

⚔️ Предикция против генерации: новый взгляд на создание целеориентированных агентов 29:19

В современном ландшафте ИИ доминирует «генеративный бум», когда все усилия индустрии направлены на создание моделей, генерирующих текст, изображения или пиксели видео. Мидо Ассран признает высокую социальную, экономическую и научную ценность генеративного подхода, однако открыто критикует попытки использовать генераторы для создания автономных целеориентированных агентов.

По словам исследователя, в генеративном пространстве объем неопределенности, которую вынуждена моделировать система при планировании шагов, растет экспоненциально. Моделирование каждого пикселя будущего кадра при построении долгосрочного плана требует гигантских вычислительных мощностей и быстро приводит к накоплению ошибок. В противовес этому, латентные предиктивные модели (latent prediction models), к которым относится V-JEPA, фокусируются исключительно на предсказании абстрактной сути происходящего. По мнению гостя подкаста, именно такие предиктивные архитектуры будут в разы эффективнее применяться в робототехнике и при создании ИИ-агентов, способных самостоятельно выстраивать последовательность решений для достижения поставленной цели.

Кроме того, Ассран указывает на ограничения текстовых больших языковых моделей (LLM) в задачах понимания физического мира. Язык дискретен и символичен, в то время как визуальный мир непрерывен. Как утверждает исследователь, попытка описать словами банальные физические свойства (например, устройство чашки или динамику взаимодействия объектов) становится невероятно громоздкой и неточной. Истинное понимание мира должно базироваться на перцептивно заземленном обучении (perceptually grounded learning) напрямую через непрерывные видео- и аудиосигналы. В будущем предиктивный модуль сможет преобразовывать этот непрерывный поток данных, автоматически выбирая нужный уровень абстракции для планирования, и взаимодействовать со структурами символьного мышления типа трансформеров.

🚧 Проблемы масштабирования и будущее мультимодального ИИ 42:50

Помимо алгоритмических барьеров, на пути развития видеомоделей стоят жесткие инфраструктурные ограничения. Мидо Ассран обращает внимание на драматический разрыв между доступными академическими датасетами изображений и видео. Если в сфере картинок существуют огромные, тщательно отмодерированные и глубоко изученные датасеты, то видео-датасеты в открытой науке критически малы и обладают низким качеством. Разработчики V-JEPA принципиально придерживаются принципов открытой науки (open science), используя только верифицированные академические наборы данных для обеспечения воспроизводимости.

Несмотря на дефицит данных, высокая эффективность алгоритмов V-JEPA (за счет маскирования 90% токенов и работы в скрытом пространстве) позволяет обучать её значительно быстрее и с меньшими вычислительными затратами, чем сопоставимые по масштабу генеративные или попиксельные модели. Исходный код проекта и веса обученных моделей выложены в открытый доступ на GitHub.

Главным вектором дальнейших исследований Мидо Ассран видит развитие мультимодальности (концепция X-JEPA). По мнению ученого, цель заключается не просто в создании универсального кодировщика, а в качественном усилении предсказательной модели мира за счет обогащения её новыми потоками данных без привлечения разметки со стороны человека:

Аудиосигналы для понимания акустического контекста событий.
Карты глубины (depth maps) для точного пространственного ориентирования.
Проприоцепция (данные от датчиков суставов робота) для интеграции моторных команд в предсказания будущего.

Именно насыщение предиктора разнообразными сенсорными сигналами в рамках полностью неконтролируемого обучения должно стать ключом к созданию по-настоящему продвинутого машинного интеллекта.