Ян Лекун: «AGI не существует, человеческий интеллект специализирован»

Эволюция искусственного интеллекта неотделима от понимания механизмов человеческого разума. В глубоком интервью для канала Eye on AI главный научный сотрудник Meta AI Ян Лекун (Yann LeCun) рассказывает о своем пути от первых экспериментов с перцептронами до создания сверточных нейросетей. Ученый объясняет, почему современным ИИ-системам все еще не хватает здравого смысла обычного уличного крысенка, и делится своим видением будущего технологий машинного обучения.

🎥 От космической одиссеи до забытой науки 0:18

Ян Лекун с детства интересовался инженерным делом и фундаментальной наукой, пытаясь найти абстрактный ответ на вопрос, что такое человеческий интеллект. Огромное влияние на него оказал фильм «Космическая одиссея 2001 года», увиденный в девятилетнем возрасте: концепция разумной машины казалась невероятной, а сама картина предлагала смелые гипотезы об эволюции человеческого разума. Отец будущего ученого был инженером-механиком в аэрокосмической отрасли, и Ян вместе с братом с ранних лет собирал модели самолетов и занимался электроникой. Впоследствии он изучал электротехнику, прикладную математику и физику в парижской инженерной школе ESIEE.

Переломный момент произошел во время учебы в колледже, когда Лекун наткнулся на философскую книгу, документирующую дебаты между лингвистом Ноамом Хомским и психологом Жаном Пиаже о природе происхождения языка. В одном из разделов Сеймур Пейперт из Массачусетского технологического института (MIT) восхвалял перцептрон — раннюю модель обучающейся машины из 1950–1960-х годов. Идея машины, способной учиться, заворожила Яна, поскольку он считал обучение неотъемлемой частью интеллекта.

Однако, углубившись в литературу примерно в 1980–1981 годах, Лекун обнаружил, что этим направлением больше никто не занимается. Как оказалось, целая область науки была фактически уничтожена в конце 1960-х годов после публикации критической книги Марвина Минского и того же Сеймура Пейперта.

🧠 Рождение Backpropagation и заговор глубокого обучения 4:17

Лекун быстро понял, почему исследователи опустили руки: классический перцептрон был крайне ограничен, а для создания многослойных сетей ученые использовали бинарные нейроны, несовместимые с алгоритмом обратного распространения ошибки (backpropagation). При этом сама математическая концепция оптимизации существовала в теории управления еще с 1960-х годов. В итоге область сменила вывеску на «адаптивные фильтры», но суть осталась прежней.

Примерно в 1983 году Лекун наткнулся на метод, близкий к backpropagation. Из-за низкой скорости компьютеров того времени, которые плохо справлялись с умножением, он использовал веса не для обратного распространения градиента, а для вычисления виртуальных целевых значений (target propagation) для бинарных нейронов. В 1985 году во Франции Ян встретил Джеффа Хинтона, чья работа по машинам Больцмана (Boltzmann machines) стала прорывом в обучении сетей со скрытыми слоями. В ходе беседы выяснилось, что они оба независимо друг от друга разрабатывали алгоритм обратного распространения ошибки. Хинтон пригласил Лекуна в свою летнюю школу в Университете Карнеги — Меллона (CMU) в 1986 году, что по сути послужило отправной точкой для формирования современного сообщества нейросетей.

Свою докторскую степень Лекун получал в Университете Пьера и Марии Кюри (ныне Сорбонна), хотя большую часть времени проводил в лабораториях с доступом к мощным компьютерам. Защитив диссертацию в 1987 году, он отправился на постдок к Хинтону в Торонто. Там же зимой 1987 года в Монреале он познакомился с молодым студентом Йошуа Бенжио, задававшим поразительно умные вопросы.

Вспоминая свои первые шаги в компьютерных технологиях, Лекун рассказал, что свой первый одноплатный компьютер на базе микропроцессора 6502 от компании Synertek он купил еще в старшей школе в 1977 году. Устройство обладало следующими характеристиками:

Оперативная память: 1 КБ RAM.
Постоянная память: 4 КБ ROM.
Интерфейс: шестнадцатеричная клавиатура и 6-значный светодиодный дисплей.

Программировать приходилось вручную на машинном языке. Главной краткосрочной мотивацией для Лекуна была электронная музыка: он до сих пор собирает аналоговые синтезаторы и самостоятельно конструирует духовые контроллеры для игры на гобое и продольной флейте.

📬 Триумф в Bell Labs и новые «темные века» 13:54

В конце 1980-х годов Ян Лекун присоединился к Bell Labs, куда позже нанял Йошуа Бенжио. Работая в команде с такими гигантами, как Владимир Вапник и Леон Ботту, исследователи создали сверточные нейросети (ConvNets), способные распознавать индексы и рукописные чеки. Инженерные подразделения успешно коммерциализировали технологию.

Однако на пике коммерческого успеха в районе 1995 года произошли два катастрофических события: сообщество потеряло интерес к нейросетям, а корпорация AT&T (материнская компания Bell Labs) во второй раз разделилась. Новый руководитель Bell Labs не выносил машинное обучение, из-за чего группу Лекуна перевели в AT&T Labs, инженерную команду — в Lucent Technologies, а продуктовое крыло — в NCR. Успешный проект был фактически ликвидирован в день празднования его внедрения.

Став руководителем департамента, Лекун на шесть лет практически забросил машинное обучение. В этот период он разработал успешную технологию сжатия изображений DjVu. Лишь в 2002 году, покинув AT&T и проработав 18 месяцев в Исследовательском институте NEC в Принстоне, ученый вернулся к ИИ. В 2003 году он перешел в Нью-Йоркский университет (NYU), где вместе с Хинтоном и Бенжио они организовали то, что в шутку называют «заговором глубокого обучения» (Deep Learning conspiracy), решив возродить технологию.

👁️ Иерархия репрезентаций: как видит нейросеть 18:04

По словам Лекуна, весь искусственный интеллект опирается на репрезентации (представления данных). В классическом компьютерном зрении инженеры вручную создавали детекторы признаков (feature extractors) на основе интуиции или обработки сигналов (например, преобразование Фурье для аудио или детекторы границ для изображений). Прорыв многослойных нейросетей заключается в сквозном обучении (end-to-end), когда система сама извлекает нужные признаки.

Ученый подчеркивает, что наш мир композиционен по своей природе: пиксели складываются в линии, линии — в углы и кресты, те — в геометрические фигуры, которые затем образуют части объектов и сами объекты. Точно так же устроена и зрительная кора головного мозга человека, имеющая функциональную иерархию. Визуальный сигнал проходит путь:

Сетчатка глаза.
Латеральное коленчатое тело (LGN).
Зоны коры V1, V2, V4.
Нижняя височная кора (IT cortex), где формируются инвариантные представления категорий объектов.

Вдохновившись этой биологической структурой и классическими работами Хьюбела и Визеля 1960-х годов, Лекун совместно с Леоном Ботту написал симулятор нейросетей SN. Он также проанализировал модель некогнитрона Кунихико Фукусимы, но посчитал её излишне византийской и сложной из-за отсутствия сквозного градиентного обучения. Весной 1988 года Лекун запустил первые эксперименты со сверточными сетями, а перейдя в Bell Labs, протестировал код на базе данных из 9 000 рукописных цифр почтовых индексов, побив все существовавшие рекорды за два месяца.

🚗 Ограничения учителей и опасность обучения с подкреплением 26:52

На сегодняшний день классическое глубокое обучение ограничено необходимостью в огромных объемах размеченных данных. По мнению Лекуна, обучение с учителем (supervised learning) экономически выгодно лишь в узком спектре задач. Оно бессильно, например, в переводе редких языков из-за отсутствия параллельных текстов или в медицине, где сбор снимков слишком дорог.

Другой популярный метод — обучение с подкреплением (reinforcement learning), развиваемый Ричардом Саттоном, — Лекун считает слишком «слабым». Этот метод полагается лишь на редкие сигналы награды или штрафа (как падение с велосипеда).

Как утверждает ученый, попытка обучить беспилотный автомобиль исключительно через классическое обучение с подкреплением привела бы к катастрофе: машине пришлось бы разбиваться тысячи раз, падать с обрывов и сбивать пешеходов, прежде чем она поймет, как делать не надо. В то же время обычный человек учится водить машину всего за 30 часов практически без надзора. Это доказывает, что в современном машинном обучении отсутствует ключевой элемент человеческого и животного интеллекта.

🍰 Секрет торта: самообучение и скрытые переменные 30:22

Лекун, Хинтон и Бенжио сходятся во мнении, что недостающим элементом является самообучение (self-supervised learning) — способность понимать устройство мира через простое наблюдение за его регулярностью. Идея заключается в «заполнении пропусков»: машине показывают видео или текст с закрытыми фрагментами и заставляют предсказывать скрытую часть. Чтобы угадать продолжение видеоролика, системе приходится выстраивать внутреннюю модель мира — понимать, что объекты двигаются независимо от фона, а неодушевленные предметы имеют предсказуемые траектории.

Изначально, в 2003–2004 годах, ученые планировали использовать самообучение для предварительного обучения сетей, считая, что обучить глубокую модель с нуля через backpropagation невозможно. Однако с появлением графических процессоров (GPU) и таких трюков, как функция активации ReLU (rectifying non-linearities) и Dropout, выяснилось, что сети прекрасно обучаются с нуля напрямую.

Главный вызов самообучения при прогнозировании видео — неопределенность будущего. Если человек роняет ручку на стол, невозможно точно предсказать, в какую сторону она покатится. Обычная нейросеть при такой задаче попытается выдать размытое среднее значение всех вариантов. Чтобы решить эту проблему, Лекун предлагает использовать «скрытые переменные» (latent variables) — случайные векторы, меняющие траекторию прогноза. Оценивать качество таких прогнозов должна вторая сеть — дискриминатор (или критик), что лежит в основе генеративно-состязательных сетей (GAN).

🧠 Память, трансформеры и здравый смысл 39:37

Современные исследования Лекуна и его коллег сосредоточены на расширении возможностей нейросетей за счет оперативной памяти (working memory), необходимой для построения цепочек рассуждений. В качестве примера ученый приводит разработанный в Facebook датасет bAbI (baby tasks), моделирующий логические задачи: «Джон пошел на кухню, взял молоко, ушел в спальню, оставил молоко. Где молоко?». Для решения таких задач были созданы Memory Networks (память-ориентированные сети), где модули памяти сами являются специализированными нейросетями. На этом фундаменте выросли архитектуры Transformer, ставшие стандартом в обработке естественного языка.

Лекун активно продвигает концепцию модельного обучения с подкреплением (model-based RL). В середине 1990-х годов от нее отказались из-за отсутствия математических доказательств сходимости, предпочтя безмодельные методы (model-free). Как иронизирует ученый, это напоминает популярную французскую шутку: «Это отлично работает на практике, но работает ли это в теории?». Отказ от модельного подхода Лекун называет «поиском потерянных ключей под фонарем только потому, что там светло».

Команда Лекуна полностью избегает классического RL, предпочитая дифференцируемые функции потерь. В своей недавней работе для конференции ICLR они представили прогностическую модель, которая рассчитывает действия окружающих автомобилей на несколько секунд вперед, минимизируя риск столкновения без всякого обучения с подкреплением.

Говоря о масштабах, Лекун отмечает, что современные языковые модели оперируют миллиардами параметров, в то время как сверточные сети обходятся десятками миллионов. Для сравнения, 30 лет назад «большая» сеть содержала всего 60 000 параметров. Шагом к самообучению стали эксперименты Facebook с 4 миллиардами фотографий из Instagram: сеть обучали предсказывать 17 000 наиболее популярных хэштегов, обозначающих физические объекты. Обученную таким «грязным» способом модель затем донастраивали на ImageNet, с легкостью побеждая старые рекорды.

В завершение дискуссии Ян Лекун заявляет, что категорически не любит термин AGI (искусственный общий интеллект), считая его ошибочным: человеческий разум крайне специализирован под земные условия, и никакого «общего» интеллекта не существует. Вместо этого он предлагает говорить об «интеллекте человеческого уровня». По его прогнозам, появление таких машин — лишь вопрос времени. Они необходимы для создания по-настоящему надежных беспилотников и домашних роботов. Главный вызов сейчас заключается в том, что даже лучшие современные ИИ-системы обладают меньшим здравым смыслом, чем обычная домашняя кошка или крыса из Вашингтон-сквер-парка. Но ученый оптимистично верит, что через механизмы наблюдения и накопления фоновых знаний эта задача будет решена.