Дилип Джордж о пути к AGI: почему здравый смысл невозможен без моделирования мира

Дилемма современного искусственного интеллекта заключается в разрыве между способностью нейросетей обрабатывать колоссальные объемы данных и их фатальной неспособностью применять здравый смысл в новых ситуациях. Дилип Джордж, сооснователь и технический директор компании Vicarius, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI, доказывает, что путь к по-настоящему общему интеллекту (AGI) лежит через алгоритмическое воспроизведение архитектуры человеческого неокортекса и использование вероятностных графических моделей.

🧠 Биологическое вдохновение: путь от Numenta к Vicarius 0:52

Диалог начинается с обсуждения профессионального пути Дилипа Джорджа, который получил степени бакалавра, магистра и доктора наук в области электротехники в Стэнфорде . Его интерес к ИИ зародился в попытках понять алгоритмические принципы работы мозга. Во время обучения он встретил Джеффа Хокинса, основателя Института нейронауки, и вместе с ним основал компанию Numenta .

В 2010 году Дилип Джордж и Скотт Феникс создали компанию Vicarius с амбициозной целью — построить AGI на основе принципов работы мозга . Причиной отделения от Numenta стали идеологические и технические разногласия:

Методологический подход: Дилип Джордж стремится сочетать нейронауку с машинным обучением и вероятностными графическими моделями .
Метод триангуляции: Дилип предлагает смотреть на проблему под тремя углами одновременно — физическое устройство мозга, структура окружающего мира и алгоритмическая база .
Отсев лишнего: По мнению гостя, многие детали биологического мозга (например, метаболизм или специфические механизмы коммуникации) не важны для информационных процессов и не должны копироваться в коде .

Джордж иронично отмечает, что «биологическое вдохновение» стало модным трендом в маркетинге ИИ-стартапов, что помогает привлекать инвестиции, но зачастую за этим скрываются лишь поверхностные аналогии .

🌍 Почему человеческий интеллект — единственный ориентир 7:40

В споре о том, помогает ли заимствование идей у природы развитию ИИ или тормозит его, Дилип Джордж занимает жесткую позицию: мозг — это единственное существующее доказательство возможности существования общего интеллекта .

Он приводит два ключевых аргумента в пользу изучения мозга:

Reference Point (Опорная точка): Мы не знаем других примеров интеллекта, способного так же робастно понимать язык, визуальные образы и физику мира, как человек .
Эффективность обучения: Современные системы глубокого обучения (Deep Learning) требуют миллионов примеров. Человек же обучается на единицах кейсов. Дилип считает, что это происходит благодаря «априорным предположениям» (assumptions), которые эволюция заложила в архитектуру неокортекса .

По мнению гостя, человеческий мозг не является абсолютно универсальной машиной для любых данных — он узко настроен на статистику и физику нашей реальности . Если предложить человеку задачу по классификации QR-кодов или шума, он справится с ней гораздо хуже, чем стандартная нейросеть, потому что мозг «заточен» под естественные сигналы .

🖼️ Здравый смысл как генеративный процесс 12:41

Одним из самых ярких примеров в беседе становится разбор фразы «Джон забил гвоздь в стену» . Дилип Джордж утверждает, что человек понимает это сообщение, запуская внутреннюю симуляцию. Мы автоматически «видим» положение гвоздя (горизонтальное) и представляем свойства материалов .

Основные тезисы Дилипа о понимании мира:

Имитация реальности: Мозг не просто сопоставляет символы, как это делает GPT-3 , а запускает динамическую симуляцию, используя сенсомоторный опыт .
Общность проблем: Восприятие, язык и моторика не должны решаться как отдельные задачи (как это принято в современных бенчмарках). Они взаимозависимы .
Генеративное восприятие: Зрение — это не классификатор, а генеративный процесс. Чтобы распознать объект, мозг должен уметь «синтезировать» его внутреннюю модель .

В качестве примера композиционности Дилип приводит концепт «стула из льда» . Человек легко представляет его, комбинируя форму стула и свойства льда, даже если никогда не видел такого объекта в реальности.

🤖 От теории к практике: робототехника в Vicarius 24:49

Несмотря на глобальную цель создания AGI, Vicarius фокусируется на прикладных задачах промышленной автоматизации. Компания коммерциализирует свои разработки через роботизацию складов и сборочных линий .

Особенности подхода Vicarius к роботам:

Адаптивность: В отличие от автомобильных заводов, где производственная линия не меняется годами, в секторе потребительских товаров (зубная паста, бритвы) дизайн упаковки меняется слишком часто для традиционного программирования .
Обучение без миллионов примеров: Использование Recursive Cortical Networks (RCN) позволяет тренировать роботов гораздо быстрее, чем при использовании стандартных нейросетей .
Сложные манипуляции: Vicarius берется не только за простую сортировку (bin picking), но и за точную сборку компонентов .

Дилип подчеркивает, что хотя их теоретические модели (например, Schema Networks для динамики) очень мощные, на практике в роботов внедряются только те части, которые обеспечивают необходимую в производстве скорость .

🧩 Recursive Cortical Networks (RCN) и взлом капчи 31:12

Модель RCN стала известна благодаря тому, что эффективно «взломала» текстовые капчи, сделав их фактически бесполезными для защиты от ботов . По словам Дилипа, капчи были выбраны как тест на сильную генерализацию: человек решает их вне зависимости от шрифта или шума, не просматривая миллионы обучающих примеров .

Механика работы RCN:

Причинно-следственная модель: Система знает, как генерируются пиксели из концептов (например, буква «A» накладывается на фон) .
Анализ через синтез: При получении изображения модель выдвигает гипотезу («кажется, это А»), генерирует свой вариант и сравнивает его с реальностью .
Согласованность: С помощью алгоритма передачи сообщений (message passing) узлы графа быстро приходят к общему решению, которое объясняет всю сцену .

🎮 Schema Networks против Deep Reinforcement Learning 39:48

Дилип Джордж критикует современное обучение с подкреплением (RL). Он упоминает успехи глубокого RL в играх Atari, подчеркивая, что эти системы демонстрируют лишь «сверхчеловеческие рефлексы», а не понимание игры .

В эксперименте с игрой Breakout, если вставить в поле лишнюю стену, обученный агент на базе глубокого RL терпит крах, в то время как человек адаптируется мгновенно . Причина в том, что агент не строит модель мира, а просто заучивает соответствие стимула и реакции.

Schema Networks, напротив:

Строят модель динамики (причинно-следственную структуру игры) .
Позволяют планировать действия, а не просто реагировать на пиксели .
Гораздо устойчивее к изменениям среды (изменение ширины ракетки, появление препятствий) .

Дилеп признает, что глубокое обучение сейчас доминирует из-за простоты масштабирования и огромного количества инструментов , в то время как его подход требует глубокой экспертизы в графах и теоретической подготовке .

📉 Ограниченность GPT-3 и будущее ИИ 48:56

Обсуждая хайп вокруг больших языковых моделей, Дилип Джордж отмечает, что GPT-3 — это «тривиально генеративная» модель . Она способна генерировать данные только в одном направлении (предсказание следующего слова или дорисовывание нижней части картинки), но не может проводить произвольные инференсы (выводы) .

По мнению Дилипа, настоящий интеллект должен уметь отвечать на любые запросы к своей модели мира, а не только следовать заученной векторизации . Он уверен, что в будущем ключевыми элементами ИИ станут:

Графы и причинно-следственные связи .
Алгоритмы передачи сообщений .
Разделение на «узкий» ИИ (для оптимизации рекламы) и «общий» ИИ (для рассуждений) .

В завершение Джордж предполагает, что даже когда будет создан AGI, классические нейросети не исчезнут. Они станут инструментами для этого разума — подобно тому, как люди используют калькуляторы для вычислений, в которых биологический мозг слаб .