Ян Лекун: «Почему большие языковые модели никогда не поймут реальность»

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с одной из ключевых фигур в истории глубокого обучения — главным учёным по искусственному интеллекту компании Meta Яном Лекуном (Yann LeCun). Профессор Нью-Йоркского университета делится критическим взглядом на триумф больших языковых моделей (LLM), объясняет, почему масштабирование текущих подходов не приведёт к созданию сильного ИИ, и предлагает принципиально новую предсказательную архитектуру, вдохновлённую развитием младенцев и высших животных.

❌ Что не так с большими языковыми моделями? 2:31

Самоуправляемое обучение (Self-Supervised Learning, SSL) совершило настоящую революцию в обработке естественного языка, став основой для предобучения трансформерных архитектур. Этот метод позволяет скрывать часть слов в тексте и обучать нейросеть предсказывать пропущенные фрагменты, формируя качественные внутренние представления данных для последующих задач вроде модерации контента или перевода. Однако, как утверждает Ян Лекун, при переносе этой генеративной логики на авторегрессионное предсказание следующего слова в коммерческих LLM индустрия столкнулась с фундаментальным тупиком.

Главная проблема генеративных моделей, по мнению учёного, заключается в их неспособности эффективно работать с неопределённостью в сложных многомерных средах. В рамках текстового словаря система легко выстраивает распределение вероятностей для следующего токена: например, в предложении «кошка гонится за ... в кухне» наиболее вероятным ответом будет «мышью», хотя возможны и другие варианты. Но при попытке применить аналогичный подход к видео — когда модель заставляют попиксельно генерировать пропущенные или последующие кадры — концепция полностью проваливается. Генерация точных изображений требует колоссальных вычислительных затрат, но, что более критично, она не создаёт стабильных внутренних абстракций, пригодных для распознавания объектов или планирования.

Лекун выделяет два ключевых фактора, из-за которых современные LLM совершают глупые логические ошибки:

Отсутствие целевой функции: у моделей нет объективного критерия оптимизации, кроме удержания статистической согласованности с текстом подсказки (промпта).
Оторванность от реальности: языковые модели не имеют ни малейшего представления о физическом мире, который этот язык описывает.

По словам исследователя, понимание реальности у таких систем остаётся крайне поверхностным. Большая часть человеческого опыта и знаний носит нелингвистический характер. Язык строится поверх колоссального пласта фоновых знаний о мире, который принято называть здравым смыслом. Любая кошка или собака обладают глубоким пониманием физических законов, механики и причинно-следственных связей, в то время как сложнейшие ИИ-модели лишены этого базиса. Они способны имитировать человеческую речь, не понимая устройства самой реальности.

🧠 Архитектура JEPA: обучение на основе предсказательной модели мира 5:37

Чтобы преодолеть ограничения генеративного подхода, Ян Лекун предлагает использовать архитектуры совместного встраивания (Joint Embedding Architectures, JEA). Вместо того чтобы предсказывать само высокоразмерное изображение или видео (каждый пиксель на экране), система должна предсказывать его абстрактное представление в пространстве признаков. Модель анализирует два разных ракурса или кадра одной сцены через нейросеть и обучается минимизировать расстояние между их скрытыми векторами, кодируя общую суть происходящего вне зависимости от угла обзора. Основная математическая сложность здесь — избежать «коллапса представлений», когда сеть начинает выдавать одинаковый пустой вектор для любых входных данных.

В своей недавней программной статье Лекун развил эту идею до предсказательной архитектуры — Joint Embedding Predictive Architecture (JEPA). Её цель — научить машины формировать полноценную модель мира посредством наблюдения. Система должна предсказывать, как изменится среда в результате естественного течения времени или в ответ на конкретное действие интеллектуального агента. По прогнозам учёного, наличие такой внутренней модели позволит агенту планировать сложные последовательности действий для достижения долгосрочных целей — способность, которая сегодня отсутствует практически во всех ИИ-системах, за исключением узкой ниши экспериментальной робототехники.

На текущий момент исследования JEPA находятся на ранней стадии. Упрощённые версии без предсказательного модуля уже успешно применяются Meta для сопоставления искажённых версий изображений. А предсказательная модификация VICRegL, представленная на конференции NeurIPS, показала отличные результаты в задачах сегментации изображений. Однако долгосрочная цель команды Лекуна — создать иерархическую структуру, способную автономно извлекать базовые законы физики из видеопотока.

По замыслу Лекуна, процесс обучения машины должен повторять когнитивное развитие младенца:

Осознание трёхмерности: наблюдая за движением камеры, модель через параллакс вычисляет глубину каждого пикселя и понимает, что мир объёмен.
Выделение объектов: сегменты изображений, движущиеся синхронно, начинают восприниматься как отдельные физические тела. Модель спонтанно формирует категории (машина, велосипед, стул), как это делают дети в первые месяцы жизни без знания названий.
Освоение интуитивной физики: примерно к 9 месяцам человеческий ребёнок понимает, что неподдерживаемый предмет падает, и начинает ориентироваться в инерции. Модель мира ИИ должна пройти аналогичный путь, чтобы заложить фундамент для здравого смысла.

📊 Пять столпов машинного обучения, от которых пора отказаться 14:20

Существует расхожее мнение, что для обучения полноценной модели мира ИИ потребуются нереалистичные объёмы данных. Лекун категорически с этим несогласен, утверждая, что пары часов видео из Instagram или YouTube будет вполне достаточно. Учёный приводит показательный расчёт: пятилетний ребёнок бодрствует около 80 million секунд, и если предположить, что его зрительная система анализирует информацию с частотой 10 кадров в секунду, то суммарный жизненный опыт составляет порядка одного миллиарда кадров. Такой объём данных Meta или Google могут собрать и обработать за один день. Следовательно, тупик кроется не в дефиците данных, а в неверных архитектурных принципах и математических фреймворках.

Для создания по-настоящему сильного ИИ Лекун призывает исследовательское сообщество отказаться от пяти устоявшихся догм современного машинного обучения:

Отказ от генеративных моделей в пользу архитектур совместного встраивания (JEPA).
Отказ от классического вероятностного моделирования. Лекун считает невозможным эффективно рассчитать точную вероятность продолжения сложного видеоряда. Вместо этого он предлагает использовать энергетические модели (Energy-Based Models, EBM), дающие более гибкую и слабую оценку в условиях высокой неопределённости.
Отказ от контрастивного обучения (Contrastive Learning). Популярный метод обучения сиамских сетей, который сам Лекун развивал с начала 1990-х годов, подразумевает принудительное расталкивание представлений заведомо разных картинок. Теперь учёный считает его неэффективным и призывает перейти к максимизации информационного наполнения (Information Maximization), реализованной в алгоритмах Barlow Twins и VICReg.
Отказ от тотальной токенизации. Попытки превратить непрерывные данные (видео, аудио) в дискретные токены — подобно тому, как изображения нарезаются на мелкие квадраты-векторы в мультимодальных LLM — ведут к критической потере информации и катастрофически плохо масштабируются с ростом контекста.
Отказ от биологической правдоподобности. Лекун не считает, что алгоритмы ИИ должны в точности копировать биологические процессы мозга. Его устраивает использование обратного распространения ошибки (backpropagation), даже если оно не подтверждено в реальной нейробиологии.

В качестве оптимальной структуры для обработки естественных данных (изображений и видео) Лекун видит гибридный подход: нижние слои нейросети должны строиться на базе свёрточных сетей (ConvNets), которые прогрессивно извлекают локальные признаки без токенизации и обладают инвариантностью к сдвигу. И лишь на верхних, максимально абстрактных уровнях, где формируются объектные представления, целесообразно подключать трансформеры, инвариантные к перестановкам.

🤝 На стыке наук: «заговор» глубокого обучения и обратная связь с нейробиологией 22:52

Развитие искусственного интеллекта всегда находилось в циклическом взаимодействии с науками о мозге. Как отмечает Лекун, в начале пути компьютерные науки черпали вдохновение из биологии, но сегодня маятник качнулся в обратную сторону: модели глубокого обучения сами служат ключевым инструментом для объяснения процессов в человеческом мозге.

В рамках вычислительной нейробиологии эксперименты с функциональной МРТ (фРТ) подтверждают, что многослойная иерархия свёрточных сетей поразительно точно моделирует вентральный поток зрительной коры приматов. Первые слои ConvNet коррелируют с зоной V1, последующие — с зонами V2 и V4, а верхние слои детально отражают активность нижневисочной коры (IT-коры). В то же время эксперименты с трансформерами, анализирующими активность мозга людей во время прослушивания историй, показывают куда менее чёткое соответствие. По наблюдениям коллег Лекуна из INRIA, человеческий мозг способен выстраивать гораздо более долгосрочные и абстрактные прогнозы, чем современные текстовые модели. Это лишний раз доказывает необходимость создания иерархических предсказательных архитектур.

Вспоминая историю становления индустрии, Лекун описывает, как в начале 2000-х годов он, Джеффри Хинтон и Йошуа Бенжио организовали неофициальное объединение, шутливо именуемое внутри сообщества «заговором глубокого обучения» (Deep Learning Conspiracy). В те годы, когда индустрия была увлечена чистым контролируемым обучением на размеченных данных, троица фокусировалась на локальных методах SSL. Хинтон разрабатывал ограниченные машины Больцмана (RBM), Бенжио создал шумоподавляющие автокодировщики (ставшие базой для современных LLM), а Лекун занимался разреженными автокодировщиками.

Учёный с иронией отмечает разницу в исследовательских подходах ветеранов ИИ:

«Джефф Хинтон до сих пор пишет код сам на MATLAB, потому что убеждён: если поручить проверку концепции студенту, и тот вернётся со словами "это не работает", ты никогда не узнаешь, была ли ошибка в самой идее или в мелких деталях реализации. Я же больше концептуализирую и доверяю написание кода студентам и постдокам. Они бесстрашны и невероятно талантливы. Если концепция буксует, я заставляю нескольких ребят кооперироваться, чтобы они перепроверяли код друг друга».

🎭 Эмоции, квалия и эволюционная природа сознания 27:39

Обсуждая недавнее выступление философа Дэвида Чалмерса, Лекун предлагает чётко разделять понятия разумности (sentience) и сознания (consciousness). По мнению учёного, базовую разумность — способность испытывать субъективный опыт, эмоции и иметь внутренние драйвы — можно будет реализовать в рамках архитектуры JEPA, если наделить её жестко прописанными целевыми функциями (потребностями).

Лекун считает, что в такой системе эмоции возникнут как естественный механизм долгосрочного прогнозирования результатов:

Страх: если внутренняя модель мира предсказывает, что выбранная цепочка действий приведёт к разрушению агента, система испытывает аналог страха и начинает искать альтернативные пути.
Ужас: если неопределённость прогноза критически высока, а вероятность уничтожения составляет 50%, это порождает ещё более сильный деструктивный сигнал (панику).
Воодушевление / Радость: предсказание гарантированного успеха и достижения поставленной цели формирует позитивный подкрепляющий сигнал.

Что касается феномена сознания, то здесь Лекун делится своей личной «обывательской теорией» (folk theory), которую одобрительно встретило философское сообщество. По его мнению, сознание — это эволюционный компромисс, вызванный физическими ограничениями нашего мозга. В префронтальной коре человека существует лишь один-единственный движок модели мира. Он является универсальным и динамически конфигурируется под конкретную задачу, которую мы решаем в данный момент: будь то строительство стола или прыжок через реку. Базовые законы физики остаются неизменными, перенастраиваются лишь параметры текущей ситуации.

Из-за того, что этот предсказательный движок уникален и неделим, люди физически способны выполнять осознанно и обдуманно только одну задачу в конкретный момент времени (параллельно могут выполняться лишь автоматические, подсознательные процессы). Чтобы управлять этим единственным ресурсом, эволюция создала мета-модуль, который оценивает состояние агента, ставит подцели и конфигурирует остальной мозг. Именно работа этого мета-наблюдателя, по мнению Лекуна, и создаёт у нас устойчивую иллюзию сознания.

🛠️ Куда мчится индустрия: открытый код против коммерческих тайн 43:20

Лекун признаёт, что даже самые гениальные концепции прошлого нередко разбивались о суровую практику. Так произошло с капсульными сетями Хинтона, которые оказались крайне сложными в реализации и не принесли ожидаемого прорыва, и с машинами Больцмана, которые банально не масштабировались и обучались слишком медленно. Станет ли архитектура JEPA новым стандартом или разделит судьбу этих проектов, покажет только время. На разработку финального рабочего «рецепта» может уйти как полгода, так и десять лет.

Тем не менее текущее беспрецедентное ускорение прогресса в области ИИ — это реальный факт. Лекун связывает феноменальный взлёт последних лет с тремя факторами:

Культура Open Source: традиция сопровождать научные публикации открытым кодом позволяет исследователям мгновенно собирать и модифицировать чужие идеи.
Мощные гибкие фреймворки: экосистемы PyTorch, TensorFlow и JAX снизили порог входа для проверки сложнейших математических гипотез.
Открытость технологических гигантов: Meta и Google исторически придерживаются крайне либеральной политики в отношении интеллектуальной собственности ИИ, публикуя прорывные наработки в открытый доступ. Сами Бенжио сейчас пытается привить аналогичную культуру открытости в Apple, хотя, по мнению Лекуна, переломить скрытную корпоративную культуру Apple — это невероятно тяжёлая битва.

Комментируя споры о возможном достижении плато ИИ-технологий (так называемой S-образной кривой насыщения), Ян Лекун заявляет, что на данный момент не видит никаких признаков замедления или «стены», в которую могла бы упереться индустрия. По его мнению, скептики, утверждающие, что ИИ никогда не научится тем или иным вещам, сегодня ведут проигрышную «арьергардную войну», раз за разом вынужденно отодвигая свои критические маркеры дальше по временной шкале.

В завершение беседы Лекун неожиданно возвращается к своим земным увлечениям. Помимо построения моделей ИИ, учёный много лет увлекается музыкой и проектированием собственных электронных духовых инструментов. Сейчас он находится в процессе создания новой модели, подтверждая, что страсть к конструированию сложных систем не ограничивается рамками цифрового кода.