Дилемма современного искусственного интеллекта заключается в разрыве между способностью нейросетей обрабатывать колоссальные объемы данных и их фатальной неспособностью применять здравый смысл в новых ситуациях. Дилип Джордж, сооснователь и технический директор компании Vicarius, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI, доказывает, что путь к по-настоящему общему интеллекту (AGI) лежит через алгоритмическое воспроизведение архитектуры человеческого неокортекса и использование вероятностных графических моделей.
🧠 Биологическое вдохновение: путь от Numenta к Vicarius 0:52
Диалог начинается с обсуждения профессионального пути Дилипа Джорджа, который получил степени бакалавра, магистра и доктора наук в области электротехники в Стэнфорде . Его интерес к ИИ зародился в попытках понять алгоритмические принципы работы мозга. Во время обучения он встретил Джеффа Хокинса, основателя Института нейронауки, и вместе с ним основал компанию Numenta .
В 2010 году Дилип Джордж и Скотт Феникс создали компанию Vicarius с амбициозной целью — построить AGI на основе принципов работы мозга . Причиной отделения от Numenta стали идеологические и технические разногласия:
- Методологический подход: Дилип Джордж стремится сочетать нейронауку с машинным обучением и вероятностными графическими моделями .
- Метод триангуляции: Дилип предлагает смотреть на проблему под тремя углами одновременно — физическое устройство мозга, структура окружающего мира и алгоритмическая база .
- Отсев лишнего: По мнению гостя, многие детали биологического мозга (например, метаболизм или специфические механизмы коммуникации) не важны для информационных процессов и не должны копироваться в коде .
Джордж иронично отмечает, что «биологическое вдохновение» стало модным трендом в маркетинге ИИ-стартапов, что помогает привлекать инвестиции, но зачастую за этим скрываются лишь поверхностные аналогии .
🌍 Почему человеческий интеллект — единственный ориентир 7:40
В споре о том, помогает ли заимствование идей у природы развитию ИИ или тормозит его, Дилип Джордж занимает жесткую позицию: мозг — это единственное существующее доказательство возможности существования общего интеллекта .
Он приводит два ключевых аргумента в пользу изучения мозга:
- Reference Point (Опорная точка): Мы не знаем других примеров интеллекта, способного так же робастно понимать язык, визуальные образы и физику мира, как человек .
- Эффективность обучения: Современные системы глубокого обучения (Deep Learning) требуют миллионов примеров. Человек же обучается на единицах кейсов. Дилип считает, что это происходит благодаря «априорным предположениям» (assumptions), которые эволюция заложила в архитектуру неокортекса .
По мнению гостя, человеческий мозг не является абсолютно универсальной машиной для любых данных — он узко настроен на статистику и физику нашей реальности . Если предложить человеку задачу по классификации QR-кодов или шума, он справится с ней гораздо хуже, чем стандартная нейросеть, потому что мозг «заточен» под естественные сигналы .
🖼️ Здравый смысл как генеративный процесс 12:41
Одним из самых ярких примеров в беседе становится разбор фразы «Джон забил гвоздь в стену» . Дилип Джордж утверждает, что человек понимает это сообщение, запуская внутреннюю симуляцию. Мы автоматически «видим» положение гвоздя (горизонтальное) и представляем свойства материалов .
Основные тезисы Дилипа о понимании мира:
- Имитация реальности: Мозг не просто сопоставляет символы, как это делает GPT-3 , а запускает динамическую симуляцию, используя сенсомоторный опыт .
- Общность проблем: Восприятие, язык и моторика не должны решаться как отдельные задачи (как это принято в современных бенчмарках). Они взаимозависимы .
- Генеративное восприятие: Зрение — это не классификатор, а генеративный процесс. Чтобы распознать объект, мозг должен уметь «синтезировать» его внутреннюю модель .
В качестве примера композиционности Дилип приводит концепт «стула из льда» . Человек легко представляет его, комбинируя форму стула и свойства льда, даже если никогда не видел такого объекта в реальности.
🤖 От теории к практике: робототехника в Vicarius 24:49
Несмотря на глобальную цель создания AGI, Vicarius фокусируется на прикладных задачах промышленной автоматизации. Компания коммерциализирует свои разработки через роботизацию складов и сборочных линий .
Особенности подхода Vicarius к роботам:
- Адаптивность: В отличие от автомобильных заводов, где производственная линия не меняется годами, в секторе потребительских товаров (зубная паста, бритвы) дизайн упаковки меняется слишком часто для традиционного программирования .
- Обучение без миллионов примеров: Использование Recursive Cortical Networks (RCN) позволяет тренировать роботов гораздо быстрее, чем при использовании стандартных нейросетей .
- Сложные манипуляции: Vicarius берется не только за простую сортировку (bin picking), но и за точную сборку компонентов .
Дилип подчеркивает, что хотя их теоретические модели (например, Schema Networks для динамики) очень мощные, на практике в роботов внедряются только те части, которые обеспечивают необходимую в производстве скорость .
🧩 Recursive Cortical Networks (RCN) и взлом капчи 31:12
Модель RCN стала известна благодаря тому, что эффективно «взломала» текстовые капчи, сделав их фактически бесполезными для защиты от ботов . По словам Дилипа, капчи были выбраны как тест на сильную генерализацию: человек решает их вне зависимости от шрифта или шума, не просматривая миллионы обучающих примеров .
Механика работы RCN:
- Причинно-следственная модель: Система знает, как генерируются пиксели из концептов (например, буква «A» накладывается на фон) .
- Анализ через синтез: При получении изображения модель выдвигает гипотезу («кажется, это А»), генерирует свой вариант и сравнивает его с реальностью .
- Согласованность: С помощью алгоритма передачи сообщений (message passing) узлы графа быстро приходят к общему решению, которое объясняет всю сцену .
🎮 Schema Networks против Deep Reinforcement Learning 39:48
Дилип Джордж критикует современное обучение с подкреплением (RL). Он упоминает успехи глубокого RL в играх Atari, подчеркивая, что эти системы демонстрируют лишь «сверхчеловеческие рефлексы», а не понимание игры .
В эксперименте с игрой Breakout, если вставить в поле лишнюю стену, обученный агент на базе глубокого RL терпит крах, в то время как человек адаптируется мгновенно . Причина в том, что агент не строит модель мира, а просто заучивает соответствие стимула и реакции.
Schema Networks, напротив:
- Строят модель динамики (причинно-следственную структуру игры) .
- Позволяют планировать действия, а не просто реагировать на пиксели .
- Гораздо устойчивее к изменениям среды (изменение ширины ракетки, появление препятствий) .
Дилеп признает, что глубокое обучение сейчас доминирует из-за простоты масштабирования и огромного количества инструментов , в то время как его подход требует глубокой экспертизы в графах и теоретической подготовке .
📉 Ограниченность GPT-3 и будущее ИИ 48:56
Обсуждая хайп вокруг больших языковых моделей, Дилип Джордж отмечает, что GPT-3 — это «тривиально генеративная» модель . Она способна генерировать данные только в одном направлении (предсказание следующего слова или дорисовывание нижней части картинки), но не может проводить произвольные инференсы (выводы) .
По мнению Дилипа, настоящий интеллект должен уметь отвечать на любые запросы к своей модели мира, а не только следовать заученной векторизации . Он уверен, что в будущем ключевыми элементами ИИ станут:
- Графы и причинно-следственные связи .
- Алгоритмы передачи сообщений .
- Разделение на «узкий» ИИ (для оптимизации рекламы) и «общий» ИИ (для рассуждений) .
В завершение Джордж предполагает, что даже когда будет создан AGI, классические нейросети не исчезнут. Они станут инструментами для этого разума — подобно тому, как люди используют калькуляторы для вычислений, в которых биологический мозг слаб .