Роланд Мемошевич: «Будущее ИИ требует возвращения рекурсии и физического заземления»

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон обсуждает будущее логического мышления больших языковых моделей с Роландом Мемошевичем, старшим директором Qualcomm AI Research. Эксперт делится своим мнением об эволюции ИИ от простых текстовых генераторов к полноценным агентным системам, способным взаимодействовать с физическим миром. В центре дискуссии — необходимость объединения языковых и перцептивных возможностей для создания искусственного интеллекта, обладающего здравым смыслом.

🔄 Путь от 20 миллиардов нейронов к Qualcomm AI 0:00

Роланд Мемошевич присоединился к команде Qualcomm AI Research около двух лет назад в результате поглощения его стартапа Twenty Billion Neurons (20bn). По словам гостя, его исследовательская группа продолжает развивать ту же научную траекторию, сочетая компьютерное зрение и обработку естественного языка для создания агентов, способных реализовать сквозное (end-to-end) видение ИИ. До основания компании Мемошевич занимался исследованиями на факультете Монреальского университета, но осознал, что для создания ситуативных агентов требуются колоссальные вычислительные ресурсы и объемы данных, доступные только в коммерческом секторе.

Его ранние проекты были сосредоточены на создании «глагольно-центрированных» наборов данных, в отличие от традиционного «существительно-центрированного» компьютерного зрения. По мнению Мемошевича, язык является ключевым ингредиентом для построения человекоподобного интеллекта. В то время как триумф ImageNet в 2012 году доказал универсальность признаков предпоследнего слоя нейросетей для распознавания образов, Мемошевич считает, что индустрия упустила важный момент: использование богатых языковых описаний (включая глаголы, прилагательные и наречия) создает гораздо более плодотворную почву для формирования у моделей универсальных когнитивных навыков.

В стартапе 20bn эта концепция реализовывалась через обучение сетей предсказанию детальных текстовых описаний к видео. По задумке разработчиков, целью было не просто научить модель комментировать происходящее, а заставить её понять фундаментальные физические свойства мира:

Окклюзию (перекрытие объектов).
Временную устойчивость объектов при движении.
Материальную структуру и жесткость тел.

В конечном итоге это привело к идее погружения ИИ в реальное время для диалога с пользователем лицом к лицу перед столом с объектами. Мемошевич убежден, что единая языковая номенклатура позволяет выравнивать внутренние представления нейросети с человеческими концептами, закладывая основу для здравого смысла.

🏋️ Проект Fitness Ally: Искусственный интеллект как компаньон 8:44

Платформой для коммерциализации и тестирования этих сквозных систем стал продукт Fitness Ally, разработанный в 20bn. Система обладала визуальным и аудиальным каналами восприятия, а также цифровым телом для невербальной коммуникации, что Мемошевич называет «виртуальным воплощением» (virtual embodiment). Команда экспериментировала с разными бизнес-моделями, включая ритейл-ассистентов, рекламирующих солнцезащитные очки на выставке NeurIPS, но именно фитнес-направление показало наилучший отклик аудитории.

По мнению эксперта, главная ценность Fitness Ally заключалась в создании ощущения долгосрочного компаньонства. В отличие от обычных приложений-счетчиков, которые просто фиксируют количество отжиманий, виртуальный тренер помнит историю прошлых тренировок пользователя и мотивирует его сделать «еще одно повторение». Система успешно продавалась по подписке в магазинах приложений, а после интеграции в Qualcomm проект развивается как технологическая демонстрация, объединяющая предобученные LLM с языковым анализом видеопотока.

🧠 Трансформеры против рекуррентных сетей: Временный триумф параллелизма 13:46

До эпохи современных LLM команда Мемошевича использовала рекуррентные нейросети на базе LSTM. Переход индустрии к архитектуре Transformer и механизмам внимания (attention) гость считает важным, но, скорее всего, исторически временным этапом в эволюции ИИ. По его мнению, главное преимущество трансформеров заключается не в их фундаментальном превосходстве в понимании языка, а в вычислительной эффективности при обучении на параллельном оборудовании.

В рекуррентных сетях генерация каждого токена происходит последовательно, что создает временную сложность обучения, пропорциональную множителю $T$ (где $T$ — длина последовательности). В трансформерах этот фактор исчезает, так как потери вычисляются одновременно по всей длине контекста. Мемошевич предполагает, что если бы старую модель LSTM обучали непрерывно в течение 100 лет, она могла бы показать результаты не хуже, а возможно, и лучше топовых моделей GPT. Доминирование трансформеров — это, по его словам, лишь технологическое совпадение, продиктованное архитектурой современных чипов.

Однако у этого параллельного подхода есть оборотная сторона, которую Мемошевич называет концептуальной ловушкой. Трансформеры лишь имитируют рекурсию (псевдорекуррентны), полагаясь на контекстное сопоставление паттернов (pattern matching). По мнению гостя, это приводит к фундаментальной неспособности к обобщению по длине (length generalization).

Исследования показывают, что если обучить трансформер решать простые символьные или математические задачи (например, вычисление четности или умножение) на последовательностях определенной длины, модель полностью теряет точность при незначительном увеличении размера задачи на этапе тестирования. У ИИ отсутствует внутреннее понимание сути последовательного процесса, из-за чего Мемошевич прогнозирует неизбежное возвращение истинной рекурсии в архитектуры будущего.

🧩 Ограничения LLM в рассуждениях и проблема «бакалавров кода» 23:44

Касаясь популярного тезиса о том, что LLM не умеют рассуждать, а лишь генерируют следующий токен, Мемошевич занимает прагматичную позицию. Он указывает, что человек на атомарном уровне точно так же выдает последовательность микродействий и слов во времени. Тем не менее, текущие успехи LLM в абстрактных рассуждениях во многом ограничены поверхностным сопоставлением шаблонов.

Для иллюстрации проблемы эксперт ссылается на концепцию двух систем мышления Даниэля Канемана (книга «Думай медленно... решай быстро»):

Система 1: Быстрое, реактивное паттерн-распознавание (в чем современные LLM чрезвычайно хороши).
Система 2: Медленное, последовательное, осознанное рассуждение, тесно связанное с языком.

Критический недостаток современных моделей, по мнению спикера, ярко проявляется в генерации кода. Начинающий программист осваивает концепцию переменных через пространственные метафоры — например, представляя их как «коробки» или «баки» для данных. Чтобы поменять местами значения переменных $A$ и $B$, человеку интуитивно понятна необходимость третьей «коробки» $C$, поскольку два физических объекта нельзя поменять местами в пространстве без перемещения одного из них в сторону.

По мнению Мемошевича, генеративные модели GPT лишены подобных метафорических и пространственных оснований. Они успешно справляются с тестами за счет «мертвых метафор» и запоминания алгоритмов, но не способны к истинному творческому программированию больших систем. Решить эту проблему можно только через заземление (grounding) языка в перцептивном опыте.

👁️ Проект LRR: Как визуальное заземление учит ИИ здравому смыслу 39:04

Для преодоления ограничений текстовых моделей команда Qualcomm AI Research разработала проект Look, Remember and Reason (LRR). В этой работе используется «замороженная» языковая модель, соединенная через специальный адаптер со стандартной моделью компьютерного зрения. Архитектура намеренно сделана максимально простой, так как Мемошевич убежден, что ИИ будет развиваться не за счет усложнения архитектур, а благодаря правильной организации данных.

Ключевой особенностью LRR является реализация нисходящего (top-down) внимания. В отличие от обычных мультимодальных моделей, в LRR процесс визуального восприятия модулируется вопросом пользователя:

Если модель просят сосчитать события, она фокусируется на динамике.
Если вопрос касается подсчета объектов — фокус смещается на статические элементы.
Если нужно смоделировать гипотетический сценарий («что будет, если...») — запускается механизм предсказания альтернативного исхода.

В рамках проекта была реализована генерация «обоснований» (rationales) — аналог метода Chain of Thought (цепочки рассуждений) для визуальной сферы. Эффективность подхода подтверждена на сложных синтетических бенчмарках. Например, в тесте ACRE (который используется для оценки причинно-следственного мышления у детей) и в тесте CATER (цифровая адаптация игры в «наперстки» с перемещением кубков и скрытых мраморных шариков). Модель LRR успешно справляется с отслеживанием скрытых объектов и пониманием неизменности их существования (object permanence), демонстрируя базовые элементы здравого смысла.

🎨 Агентное рисование и Quick Draw 53:25

Параллельно группа Мемошевича исследует альтернативный путь генерации изображений, в корне отличающийся от диффузионных моделей или DALL-E. Они создали авторегрессионную агентную систему, которая учится управлять виртуальным пером для создания линейных рисунков. В основе лежит та же простая архитектура, сочетающая LLM, визуальный адаптер и перцептивную обратную связь.

Поскольку модель видит холст в процессе рисования, её поведение перестает быть баллистическим (слепым выполнением последовательности команд). ИИ способен адаптироваться к текущему состоянию рисунка, стирать неудачные элементы или дорисовывать неоконченные наброски.

На начальном этапе модель обучалась с учителем (supervised learning) на базе датасета Quick Draw от Google, содержащего траектории штрихов реальных людей. В дальнейшем система дообучается с помощью обучения с подкреплением (RL): высокотемпературные варианты штрихов оцениваются классификатором на предмет их сходства с целевым объектом (например, рыбой), формируя сигнал вознаграждения.

🔮 Будущее ИИ: Возвращение рекурсии, быстрая память и концепция «Я» 57:56

Делясь долгосрочными прогнозами, Роланд Мемошевич с иронией вспоминает, как несколько лет назад проиграл пари, поставив на то, что к 2021 году видеочаты с реалистичными ИИ-аватарами (на базе GAN) станут неотличимы от разговора с живым человеком. «Этот прорыв все еще в паре лет от нас, и так продолжается уже какое-то время», — шутит исследователь.

Помимо возвращения рекурсивных связей, Мемошевич выделяет два критических и пока не решенных технологических вызова:

Проблема механизмов памяти (Fast Weights): Человек способен запоминать факты мгновенно (например, если собеседник упомянул, что родился в Германии, эта информация будет доступна через три недели). Нейросети же полагаются на медленную синаптическую адаптацию через градиентный спуск. Разрыв между этими двумя типами обучения остается фундаментальной загадкой.
Эволюция концепции «Я» (Sense of Self): По мнению гостя, настоящее заземление ИИ должно включать понимание моделью своего собственного существования в контексте выполняемых действий. Появлению местоимения «Я» и осознанию границ собственной идентичности посвящены тысячелетние буддийские практики. Без воссоздания этого механизма агентные системы не смогут полноценно взаимодействовать друг с другом и с физической реальностью.