# Дилип Джордж о пути к AGI: почему здравый смысл невозможен без моделирования мира

Источник: https://www.youtube.com/watch?v=cgocH_7ZV-A
Канал: The TWIML AI Podcast
Опубликовано: 23.12.2020

---

Дилемма современного искусственного интеллекта заключается в разрыве между способностью нейросетей обрабатывать колоссальные объемы данных и их фатальной неспособностью применять здравый смысл в новых ситуациях. Дилип Джордж, сооснователь и технический директор компании Vicarius, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI, доказывает, что путь к по-настоящему общему интеллекту (AGI) лежит через алгоритмическое воспроизведение архитектуры человеческого неокортекса и использование вероятностных графических моделей.

## 🧠 Биологическое вдохновение: путь от Numenta к Vicarius
[[JUMP:00:52]]

Диалог начинается с обсуждения профессионального пути Дилипа Джорджа, который получил степени бакалавра, магистра и доктора наук в области электротехники в Стэнфорде [00:52]. Его интерес к ИИ зародился в попытках понять алгоритмические принципы работы мозга. Во время обучения он встретил Джеффа Хокинса, основателя Института нейронауки, и вместе с ним основал компанию Numenta [01:56].

В 2010 году Дилип Джордж и Скотт Феникс создали компанию Vicarius с амбициозной целью — построить AGI на основе принципов работы мозга [02:10]. Причиной отделения от Numenta стали идеологические и технические разногласия:

*   **Методологический подход:** Дилип Джордж стремится сочетать нейронауку с машинным обучением и вероятностными графическими моделями [03:33].
*   **Метод триангуляции:** Дилип предлагает смотреть на проблему под тремя углами одновременно — физическое устройство мозга, структура окружающего мира и алгоритмическая база [04:01].
*   **Отсев лишнего:** По мнению гостя, многие детали биологического мозга (например, метаболизм или специфические механизмы коммуникации) не важны для информационных процессов и не должны копироваться в коде [04:15].

Джордж иронично отмечает, что «биологическое вдохновение» стало модным трендом в маркетинге ИИ-стартапов, что помогает привлекать инвестиции, но зачастую за этим скрываются лишь поверхностные аналогии [06:32].

## 🌍 Почему человеческий интеллект — единственный ориентир
[[JUMP:07:40]]

В споре о том, помогает ли заимствование идей у природы развитию ИИ или тормозит его, Дилип Джордж занимает жесткую позицию: мозг — это единственное существующее доказательство возможности существования общего интеллекта [07:54].

Он приводит два ключевых аргумента в пользу изучения мозга:

1.  **Reference Point (Опорная точка):** Мы не знаем других примеров интеллекта, способного так же робастно понимать язык, визуальные образы и физику мира, как человек [08:36].
2.  **Эффективность обучения:** Современные системы глубокого обучения (Deep Learning) требуют миллионов примеров. Человек же обучается на единицах кейсов. Дилип считает, что это происходит благодаря «априорным предположениям» (assumptions), которые эволюция заложила в архитектуру неокортекса [09:14].

По мнению гостя, человеческий мозг не является абсолютно универсальной машиной для любых данных — он узко настроен на статистику и физику нашей реальности [09:54]. Если предложить человеку задачу по классификации QR-кодов или шума, он справится с ней гораздо хуже, чем стандартная нейросеть, потому что мозг «заточен» под естественные сигналы [21:05].

## 🖼️ Здравый смысл как генеративный процесс
[[JUMP:12:41]]

Одним из самых ярких примеров в беседе становится разбор фразы «Джон забил гвоздь в стену» [13:10]. Дилип Джордж утверждает, что человек понимает это сообщение, запуская внутреннюю симуляцию. Мы автоматически «видим» положение гвоздя (горизонтальное) и представляем свойства материалов [13:35].

Основные тезисы Дилипа о понимании мира:

*   **Имитация реальности:** Мозг не просто сопоставляет символы, как это делает GPT-3 [14:02], а запускает динамическую симуляцию, используя сенсомоторный опыт [14:15].
*   **Общность проблем:** Восприятие, язык и моторика не должны решаться как отдельные задачи (как это принято в современных бенчмарках). Они взаимозависимы [17:40].
*   **Генеративное восприятие:** Зрение — это не классификатор, а генеративный процесс. Чтобы распознать объект, мозг должен уметь «синтезировать» его внутреннюю модель [18:05].

В качестве примера композиционности Дилип приводит концепт «стула из льда» [18:18]. Человек легко представляет его, комбинируя форму стула и свойства льда, даже если никогда не видел такого объекта в реальности.

## 🤖 От теории к практике: робототехника в Vicarius
[[JUMP:24:49]]

Несмотря на глобальную цель создания AGI, Vicarius фокусируется на прикладных задачах промышленной автоматизации. Компания коммерциализирует свои разработки через роботизацию складов и сборочных линий [28:22].

Особенности подхода Vicarius к роботам:

*   **Адаптивность:** В отличие от автомобильных заводов, где производственная линия не меняется годами, в секторе потребительских товаров (зубная паста, бритвы) дизайн упаковки меняется слишком часто для традиционного программирования [29:27].
*   **Обучение без миллионов примеров:** Использование Recursive Cortical Networks (RCN) позволяет тренировать роботов гораздо быстрее, чем при использовании стандартных нейросетей [27:31].
*   **Сложные манипуляции:** Vicarius берется не только за простую сортировку (bin picking), но и за точную сборку компонентов [30:33].

Дилип подчеркивает, что хотя их теоретические модели (например, Schema Networks для динамики) очень мощные, на практике в роботов внедряются только те части, которые обеспечивают необходимую в производстве скорость [27:04].

## 🧩 Recursive Cortical Networks (RCN) и взлом капчи
[[JUMP:31:12]]

Модель RCN стала известна благодаря тому, что эффективно «взломала» текстовые капчи, сделав их фактически бесполезными для защиты от ботов [32:05]. По словам Дилипа, капчи были выбраны как тест на сильную генерализацию: человек решает их вне зависимости от шрифта или шума, не просматривая миллионы обучающих примеров [32:43].

Механика работы RCN:

1.  **Причинно-следственная модель:** Система знает, как генерируются пиксели из концептов (например, буква «A» накладывается на фон) [35:00].
2.  **Анализ через синтез:** При получении изображения модель выдвигает гипотезу («кажется, это А»), генерирует свой вариант и сравнивает его с реальностью [37:09].
3.  **Согласованность:** С помощью алгоритма передачи сообщений (message passing) узлы графа быстро приходят к общему решению, которое объясняет всю сцену [38:29].

## 🎮 Schema Networks против Deep Reinforcement Learning
[[JUMP:39:48]]

Дилип Джордж критикует современное обучение с подкреплением (RL). Он упоминает успехи глубокого RL в играх Atari, подчеркивая, что эти системы демонстрируют лишь «сверхчеловеческие рефлексы», а не понимание игры [40:38].

В эксперименте с игрой Breakout, если вставить в поле лишнюю стену, обученный агент на базе глубокого RL терпит крах, в то время как человек адаптируется мгновенно [41:05]. Причина в том, что агент не строит модель мира, а просто заучивает соответствие стимула и реакции.

Schema Networks, напротив:

*   Строят модель динамики (причинно-следственную структуру игры) [42:13].
*   Позволяют планировать действия, а не просто реагировать на пиксели [42:13].
*   Гораздо устойчивее к изменениям среды (изменение ширины ракетки, появление препятствий) [42:39].

Дилеп признает, что глубокое обучение сейчас доминирует из-за простоты масштабирования и огромного количества инструментов [43:57], в то время как его подход требует глубокой экспертизы в графах и теоретической подготовке [46:20].

## 📉 Ограниченность GPT-3 и будущее ИИ
[[JUMP:48:56]]

Обсуждая хайп вокруг больших языковых моделей, Дилип Джордж отмечает, что GPT-3 — это «тривиально генеративная» модель [50:41]. Она способна генерировать данные только в одном направлении (предсказание следующего слова или дорисовывание нижней части картинки), но не может проводить произвольные инференсы (выводы) [51:09].

По мнению Дилипа, настоящий интеллект должен уметь отвечать на любые запросы к своей модели мира, а не только следовать заученной векторизации [51:41]. Он уверен, что в будущем ключевыми элементами ИИ станут:

*   Графы и причинно-следственные связи [52:40].
*   Алгоритмы передачи сообщений [52:40].
*   Разделение на «узкий» ИИ (для оптимизации рекламы) и «общий» ИИ (для рассуждений) [53:22].

В завершение Джордж предполагает, что даже когда будет создан AGI, классические нейросети не исчезнут. Они станут инструментами для этого разума — подобно тому, как люди используют калькуляторы для вычислений, в которых биологический мозг слаб [54:42].