Ян ЛеКун представил архитектуру JEPA для создания модели мира

В интервью для канала Eye on AI главный ИИ-учёный компании Meta Ян ЛеКун (Yann LeCun) подробно разобрал фундаментальные недостатки современных больших языковых моделей и представил альтернативный путь развития индустрии. По мнению исследователя, слепое масштабирование генеративных архитектур не приведёт к созданию человекоподобного интеллекта, поскольку они лишены базового понимания физической реальности. Вместо этого ЛеКун предлагает концепцию прогностической архитектуры совместного встраивания (JEPA), способной формировать полноценную модель мира и заложить основу для появления у машин здравого смысла и зачатков сознания.

🛑 Тупик генеративного подхода: в чём слабость современных LLM 2:40

По словам Яна ЛеКуна, самообучение (self-supervised learning, SSL) совершило настоящую революцию в обработке естественного языка, став основой для предобучения трансформерных архитектур. Этот метод широко применяется на практике, например, в алгоритмах модерации контента на Facebook, Google и YouTube. Однако классические большие языковые модели (LLM), обучаемые предсказанию следующего слова, имеют непреодолимые ограничения.

ЛеКун утверждает, что главная проблема ИИ текущего поколения заключается в их генеративной природе: они пытаются предсказать пропущенную информацию в виде конкретных объектов реального мира. В текстовой среде это работает успешно, так как неопределённость легко выразить через распределение вероятностей по словарю. Однако при попытке применить этот подход к видео или изображениям генеративные модели терпят неудачу, поскольку они неспособны эффективно обрабатывать колоссальную неопределённость реального мира и формировать качественные внутренние представления для последующих задач.

🖼️ Почему текст не равен видео: ограничения токенизации изображений 5:52

По мнению исследователя, механический перенос методов SSL из лингвистики в компьютерное зрение оказался неэффективным. В области обработки изображений реальный успех демонстрируют только архитектуры совместного встраивания (joint embedding), которые предсказывают не сами пиксели, а абстрактные представления объектов. В таких системах разные ракурсы одной сцены пропускаются через нейросеть, которая максимизирует близость их финальных векторов, обучаясь кодировать суть контента независимо от точки обзора.

Основная математическая сложность здесь заключается в предотвращении «коллапса» модели, когда система начинает выдавать одинаковые векторы для совершенно разных картинок. Попытки современных разработчиков обойти это ограничение путём токенизации — нарезки изображений на мелкие квадраты и превращения их в векторы по аналогии со словами — ЛеКун считает тупиковыми. По его оценке, при токенизации теряется слишком много контекста, а сами трансформеры плохо масштабируются при лавинообразном росте числа токенов, неизбежном для длинных видеороликов.

В качестве альтернативы учёный видит гибридный подход:

Нижние слои нейросети должны строиться на базе свёрточных сетей (CNN), которые эффективно извлекают локальные признаки без деструктивного дробления картинки.
Верхние слои могут задействовать трансформеры для работы с высокоуровневыми, объектно-ориентированными представлениями.

🌍 Архитектура JEPA: обучение модели мира по методу младенцев 7:11

Ян ЛеКун предлагает переключить фокус внимания ИИ-сообщества на создание прогностических моделей мира (predictive world models) с помощью SSL. Такая система должна предсказывать, как изменится ситуация в видео или к каким последствиям приведёт то или иное действие интеллектуального агента. Наличие модели мира позволит ИИ планировать сложные последовательности шагов для достижения долгосрочных целей, что, по словам гостя, сейчас полностью отсутствует в популярных моделях общего назначения и развивается лишь в узком сегменте робототехники.

По мнению ЛеКуна, современные LLM совершают глупые семантические ошибки именно из-за отсутствия связи с физической реальности. Их обучение сводится к обеспечению статистической согласованности с текстовой подсказкой (промптом). Учёный подчёркивает, что большая часть человеческих знаний не имеет языковой природы; язык — это лишь надстройка над огромным массивом базовых представлений, формирующих здравый смысл. Этим здравым смыслом обладают кошки и собаки, но не современные нейросети.

ЛеКун считает, что машины должны обучаться базовым законам физики спонтанно, подобно младенцам:

В первые месяцы жизни ребёнок без знания слов учится различать трёхмерность пространства, объекты и их перекрытия за счёт движения глаз и параллакса.
К девяти месяцам у человека формируется интуитивное понимание физики, например, осознание того, что неподдерживаемый объект упадёт.
Лишь поверх этой накопленной базы здравого смысла можно эффективно наслаивать лингвистические способности.

🛠️ Отказ от догм машинного обучения и проблема объёма данных 15:05

Вопреки расхожему мнению о необходимости гигантских объёмов данных для обучения таких моделей мира, ЛеКун уверен, что это ложная проблема. По его расчетам, пятилетний ребёнок, воспринимающий зрительную информацию условно 10 раз в секунду, за всё время бодрствования видит около 800 миллионов кадров. Такое количество данных можно легко получить из нескольких часов видеоматериалов на YouTube или Instagram. Проблема кроется исключительно в архитектуре и математических принципах обучения.

Для построения полноценного ИИ ЛеКун призывает индустрию отказаться от ключевых догм машинного обучения:

Полный отказ от чисто генеративных моделей в пользу архитектур совместного встраивания (Joint Embedding).
Отказ от классического вероятностного моделирования непрерывных данных в пользу энергетических моделей (energy-based models), лучше справляющихся с неопределённостью.
Отказ от контрастного обучения (contrastive learning), требующего подбора негативных примеров, в пользу методов максимизации информационного наполнения.

В рамках реализации этого видения команда ЛеКуна уже представила промежуточные результаты, такие как алгоритм vicreg L для сегментации изображений, однако окончательный «рецепт» иерархической архитектуры JEPA (Hierarchical JEPA) всё ещё находится в стадии разработки. Сроки создания финальной технологии учёный оценивать не берётся, допуская, что на это может уйти от полугода до десяти лет.

🧠 Нейробиологический контекст и поиск формулы мышления 23:41

Предложенная ЛеКуном модульная когнитивная архитектура во многом вдохновлена процессами в человеческом мозге, хотя и не является его копией. Учёный отмечает давний двусторонний обмен идеями между машинным обучением и вычислительной нейробиологией. Например, фМРТ-исследования подтверждают, что многослойная иерархия свёрточных нейросетей удивительно точно моделирует активность различных зон зрительной коры человека (от V1 до вентрального потока) при просмотре одних и тех же изображений.

Однако в случае с языковыми моделями ситуация иная. Коллега ЛеКуна из FAIR Жан-Реми Кинг проводил эксперименты по сопоставлению активности мозга людей, слушающих истории, с внутренними состояниями трансформеров. Выяснилось, что соответствие между ними гораздо слабее, поскольку человеческий мозг строит куда более долгосрочные и абстрактные прогнозы, чем способны делать современные коммерческие LLM. По мнению гостя, это лишний раз доказывает необходимость перехода к иерархическим репрезентациям, где высшие уровни абстракции отвечают за глобальное стратегическое предсказание.

🎭 Природа сознания: эмоции ИИ и единый движок модели мира 29:51

Обсуждая философские аспекты ИИ, ЛеКун опирается на классическое разделение философа Дэвида Чалмерса на «способность к ощущению» (sentience) и истинное «сознание» (consciousness). По мнению ЛеКуна, базовую способность чувствовать можно реализовать в рамках архитектуры JEPA через механизм целеполагания и внутренних драйвов. Если система рассчитывает последствия своих действий и её прогностическая модель предвидит физическое уничтожение агента, это вызовет внутреннее состояние, неотличимое от биологического страха. Напротив, предсказание успешного исхода сформирует аналог радости или душевного подъёма.

Что касается полноценного сознания, ЛеКун выдвигает гипотезу, согласно которой оно является следствием аппаратного ограничения эволюции:

В мозге (предположительно, в префронтальной коре) существует лишь один универсальный движок модели мира.
Этот движок динамически конфигурируется под конкретную задачу, стоящую перед индивидом в данный момент.
Поскольку этот вычислительный ресурс уникален, человек физически не способен выполнять одновременно две сложные осознанные ментальные задачи, хотя может параллельно выполнять массу подсознательных действий.

ЛеКун предполагает, что для управления этим единственным движком эволюции пришлось создать мета-модуль, который оценивает внешнюю ситуацию, ставит субцели и конфигурирует остальные отделы мозга. Именно работа этого мета-наблюдателя, по мнению учёного, и создаёт у человека устойчивую иллюзию сознания.

🧪 За кулисами FAIR: как ЛеКун руководит исследованиями без менеджмента 38:55

Ян ЛеКун поделился личными деталями своей работы в лаборатории FAIR (Fundamental AI Research) корпорации Meta. Учёный подчеркнул, что его позиция главного ИИ-учёного принципиально освобождена от административного менеджмента, который полностью закрывает Джоэль Пино. Это позволяет ЛеКуну фокусироваться на научной стратегии и напрямую работать с молодыми учёными, аспирантами и постдоками в Нью-Йоркском университете и Париже. Гость тепло отозвался о своих подопечных, отметил их бесстрашие, креативность и готовность жестко тестировать любые теоретические гипотезы.

Исследователь признался, что за последние годы ему не раз приходилось кардинально менять своё мнение под влиянием эмпирических результатов. Так, ранее он активно продвигал генеративные модели с латентными переменными, а также фактически стоял у истоков контрастного обучения, от которого сегодня призывает отказаться. Поменять позицию его заставила работа коллег, реанимировавших старую идею Джеффри Хинтона о максимизации информации в архитектурах совместного встраивания, что привело к созданию алгоритмов Barlow Twins и VICReg. Сам ЛеКун пишет код гораздо меньше, чем ему хотелось бы, делегируя реализацию студентам, хотя иногда лично погружается в отладку, если концептуально верная идея застревает из-за мелких технических ошибок исполнения.

📜 Эволюция трансформеров: от сигма-пи сетей до открытой науки 48:28

Комментируя невероятную скорость прогресса в ИИ, ЛеКун напомнил, что у всех «внезапных» прорывов есть глубокие исторические корни, о которых часто забывают даже сами авторы.

Так, базовые элементы современных трансформеров уходят корнями в исследования 1990-х годов:

Идея мультипликативных взаимодействий (сети CMI или сигма-пи сети) активно изучалась ещё в 1980-х годах.
Механизм внимания (attention) концептуально применялся в моделях смеси экспертов (mixture of experts) на стыке 80-х и 90-х.
Разделение ИИ на вычислительный модуль и блок ассоциативной памяти (где сходство векторов определяет выдачу информации) детально прорабатывалось в стенах FAIR в 2014–2015 годах в серии работ о сетях памяти (Memory Networks).

Полноценно механизм внимания был популяризирован группой Йошуа Бенжио в 2015 году для задач перевода, после чего объединение этих концепций породило архитектуру Transformer. ЛеКун указывает на важную математическую деталь: если свёрточные сети инвариантны к сдвигу изображения, то трансформеры инвариантны к перестановке (пермутации) входных токенов.

Ускорение ИИ-индустрии в геометрической прогрессии, по мнению ЛеКуна, вызвано беспрецедентной культурой открытости, где Meta и Google исторически не злоупотребляют защитой интеллектуальной собственности и выкладывают код в open source, предоставляя сообществу такие мощные инструменты, как PyTorch или TensorFlow. Напротив, такие корпорации, как Apple и Amazon, традиционно остаются крайне закрытыми, и попытки отдельных учёных изменить эту культуру изнутри сталкиваются с огромным сопротивлением. В заключение ЛеКун выразил уверенность, что никакого скорого «технологического плато» в исследованиях ИИ не предвидится, однако для движения вперед отрасли критически необходим приток принципиально новых концепций, альтернативных слепому масштабированию LLM.