ИИ против здравого смысла: как создать мыслящую машину

Современные нейросети напоминают невероятно эрудированных собеседников, которые, однако, совершенно не понимают, о чем говорят. Гэри Маркус и Луис Ламб доказывают: пока мы гонимся за объемом данных, мы упускаем фундаментальную семантику, без которой ИИ навсегда останется хрупким «черным ящиком», неспособным на истинное мышление.

🧠 Кризис доверия и рождение нейросимволической парадигмы 0:06

Современный искусственный интеллект столкнулся с фундаментальным барьером, который Гэри Маркус называет проблемой «робастности». В то время как программисты создают алгоритмы, работающие независимо от обучающих данных на основе операций над переменными, нейросетевые системы занимаются тем, что Джуда Перл называл «подгонкой кривой» (curve fitting) . Это глубокое различие предопределяет неспособность ИИ к истинной абстракции. Человек обладает «эффектом калейдоскопа» — способностью переносить накопленный опыт в совершенно новые ситуации, создавая модели на лету . Однако современные нейросети остаются узкоспециализированными: любая адаптация к новизне для них болезненна.

Проблема абстракции и семантики: почему ИИ нельзя доверять 0:45

Гэри Маркус утверждает, что нам нужен ИИ, которому можно доверять в критических сферах: в медицине, на дорогах и в управлении сообществами. Робастный интеллект — это не обязательно «сверхчеловеческий» разум, а система, способная надежно применять свои знания в широком диапазоне контекстов . Проблема в том, что сегодняшние модели не понимают причинно-следственных связей и лишены глубокой семантики.

Как отмечает Маркус, современные системы демонстрируют поразительную хрупкость:

Алгоритм игры в шахматы может полностью выйти из строя, если изменить размер доски всего на одну клетку, что потребует переобучения с нуля .
Знания нейросетей остаются «точечными» (pointillistic) — они полезны и впечатляющи, но никогда не бывают по-настоящему надежными .
Системы глубокого обучения чувствительны даже к порядку представления данных во время обучения .

Гэри Маркус видит познание как цикл: человек воспринимает информацию, строит внутреннюю когнитивную модель и на её основе принимает решения . Если ИИ не будет делать нечто аналогичное, он обречен на провал в попытках достичь уровня человеческого разума. Долгое время Маркуса критиковали за эти взгляды, но сегодня даже его вчерашние оппоненты, такие как Ян Лекун или Йошуа Бенджио, признают наличие фундаментальных проблем с экстраполяцией и отсутствием семантики . Примером тому служит трагикомичный случай с GPT-3, которая на предложение пользователя покончить с собой ответила: «Я думаю, это хорошая идея» . Модель просто не обладает эксплицитной когнитивной моделью и не понимает структуры абстрактных категорий, таких как «кислый виноград» из басни Эзопа .

Нейросимволический подход: гибридная архитектура будущего 4:54

Для решения этих проблем Гэри Маркус и Луис Ламб предлагают нейросимволическую парадигму — синтез статистической мощи нейросетей и логической строгости символьных вычислений. Маркус продвигает «программу из четырех шагов», которая включает:

Создание гибридных архитектур.
Построение богатых когнитивных фреймворков и баз знаний.
Разработку инструментов для абстрактных рассуждений.
Создание механизмов индукции когнитивных моделей .

Луис Ламб, один из ведущих исследователей в этой области, подчеркивает, что мы должны интегрировать логический вывод в нейронные сети . Важно понимать, что гибридные модели — это не просто теоретический конструкт; они уже повсеместно используются в продакшене, например, в поиске Google . Проблема в том, что современное сообщество машинного обучения зачастую игнорирует историю компьютерных наук, где символьные методы десятилетиями задавали стандарты работы с абстракциями .

Маркус и Ламб сходятся во мнении, что глубокое обучение должно стать частью более широкой коалиции методов . Это потребует пересмотра самого понятия «обучение»: оно должно стать более абстрактным, включать языковые обобщения и оперировать когнитивными примитивами (например, операциями над переменными) как первоклассными гражданами системы .

В дискуссии о будущем отрасли упоминается знаменитый спор Маркуса и Бенджио. Гэри Маркус призывает «расширить зонтик» символов, в то время как Бенджио стремится расширить возможности глубокого обучения . Независимо от терминологии, цель одна: создать систему, обладающую причинно-следственным пониманием мира . Ранее в разговоре они также кратко касались темы различия между интенцией и экстенцией, что критически важно для понимания того, как именно системы должны представлять внутреннюю структуру объектов, чтобы успешно экстраполировать знания в новые ситуации.

🧠 Пределы обучения: от сопоставления к пониманию 25:20

Современные системы глубокого обучения часто оказываются в ловушке собственной эффективности, достигая высоких результатов в узких задачах, но полностью теряя ориентацию при малейшем изменении контекста. Гэри Маркус (Gary Marcus) отмечает, что такие модели зачастую лишь запоминают статистические закономерности (экстенция), вместо того чтобы осваивать внутреннюю логику системы или алгоритма (интенция).

Ограниченность «узких» систем 25:20

Проблема глубокого обучения заключается в отсутствии переноса знаний. Если модель обучена на формуле дискретного преобразования Фурье, изменение хотя бы одного коэффициента требует полного переобучения системы с нуля. Она не «понимает», как прийти к ответу, и не способна абстрактно применить полученные знания к концептуально схожим задачам.

Луис Ламб (Luis Lamb) и Гэри Маркус сходятся во мнении, что текущие модели лишены фундаментальной способности к абстрактному переприменению знаний. Попытки «зашить» понимание процесса непосредственно в задачу — например, через реконструкцию сигнала с использованием заранее известных синусов и косинусов — по сути, делают модель символической, даже если архитектурно она остается нейронной. Это лишь подтверждает, что для эффективного обучения требуется интеграция внешних знаний, а не слепая оптимизация на больших данных.

Интенция против экстенции: глубокая пропасть 25:20

Ключевой конфликт заключается в способе взаимодействия с информацией. Экстенциональный подход — это сопоставление входных данных с выходами, где модель «не знает», что происходит внутри. В отличие от этого, интенциональный подход предполагает владение структурой задачи и способность выводить решения из первых принципов.

Ранее в разговоре участники касались фундаментальной проблемы абстракции и семантики в ИИ, которая требует принципиально иного архитектурного решения.

Маркус подчеркивает, что интеллект требует «чувствительности к абстрактным аналогиям». В то время как глубокое обучение пытается «раздавить» задачу огромным количеством данных, человеческий интеллект способен быстро адаптироваться к новым ситуациям, опираясь на prior-знания (априорные представления). Например, когда человек видит в кино пистолет, он сразу понимает контекст — риск, возможную осечку или драматургическую значимость — не переучиваясь при этом каждый раз.

Проблема «Горького урока» и вопрос архитектуры 26:51

В дискуссии затрагивается тезис Рича Саттона о «горьком уроке» (the bitter lesson), который многие интерпретируют как призыв к отказу от человеческих знаний в пользу чистого масштабирования вычислений. Маркус выражает скепсис: хотя он согласен, что «ручное» проектирование знаний часто приводило к катастрофам в истории ИИ, полный отказ от архитектурных ограничений — это путь к тупику.

Моделирование разума только через «обучение» без структурированных символьных систем — это определение интеллекта, которое, по мнению Маркуса, не учитывает核心 когниции: эффективное обобщение. Интеллект не сводится к максимизации награды в вакууме; он требует модульной архитектуры, где нейронные сети отвечают за восприятие, а символьные блоки — за рассуждение и экстраполяцию.

🧩 Преодоление разрыва: поиск семантики в эпоху больших данных 50:26

Современный ландшафт машинного обучения характеризуется глубоким разделением. С одной стороны — впечатляющие успехи нейронных сетей в распознавании образов и обработке языковых моделей, с другой — острая нехватка строгих семантических оснований, которые компьютерная наука традиционно требует от любой дисциплины. Луис Ламб подчеркивает, что развитие искусственного интеллекта не должно ограничиваться лишь поиском корреляций или классификацией меток в гигантских базах данных.

Проблема заключается в том, что текущие системы, включая большие языковые модели (LLM), действуют скорее как колоссальные библиотеки «вырезок», манипулирующие синонимами, нежели как сущности, выстраивающие внутреннюю модель мира. Ранее в разговоре они касались нейросимволического подхода как способа интеграции логики и обучения. Как отмечает Ламб, для построения безопасных и предсказуемых систем — например, в медицине — нам необходимо формализовать такие понятия, как здравый смысл или комбинаторное мышление, что до сих пор остается «открытой раной» в области ИИ.

🚀 Уроки космической гонки и поиск семантики 54:10

Луис Ламб проводит историческую параллель с 1960-ми годами, когда амбициозная задача высадки человека на Луну потребовала радикального прогресса в компьютерных науках. Ограниченность аппаратных ресурсов того времени заставляла инженеров искать предельно точные, логически обоснованные семантики для языков программирования.

В тот период развернулась знаменитая научная полемика между Кристофером Стрэчи (Christopher Strachey), предлагавшим использовать лямбда-исчисление, и логиком Даной Скоттом (Dana Scott), который настаивал на необходимости разработки принципиально новой теории денотационной семантики. В конечном итоге именно этот поиск фундаментальной семантики позволил создать эффективные языки программирования. Ламб убежден: сегодня мы находимся в аналогичной точке. Чтобы перейти от простых статистических моделей к надежным интеллектуальным агентам, ИИ необходимо заимствовать методологию из когнитивистики, нейронаук и теории формальных семантик.

⚖️ Интенция против экстенции 1:09:27

Гэри Маркус вводит важное философское различение, помогающее понять текущий кризис ИИ: противопоставление «экстенции» (extension) и «интенции» (intention).

Экстенция: По сути — перечисление объектов или данных. Например, если система просто заучила все возможные пары карт в покер, она знает, что «девятка бьет девятку», но не понимает сути «пары» как категории.
Интенция: Понимание глубинной реальности, лежащей в основе явлений. Это способность абстрагироваться и делать выводы о вещах, с которыми система ранее не сталкивалась.

Большинство современных нейросетей «вращаются» вокруг экстенции, накапливая колоссальные объемы данных. Маркус приводит в пример случай, когда GPT-3 дает нелепый ответ на вопрос о токсичности смеси соков: система просто находит в базе данных статистическую связь между словами «пить» и «смерть», не обладая реальным пониманием человеческой биологии. Именно этот дефицит интенции превращает мощные инструменты в опасные «автозаполнители», когда их пытаются использовать, например, в службах психологической поддержки.

🧠 Аналогия как двигатель познания 1:06:10

Ключ к решению проблемы, по мнению Маркуса, лежит в способности к абстрагированию и экстраполяции. Человек, услышав о воде, вытекающей из разбитой бутылки, мгновенно переносит эту логику на шарики или игральные кости, выпадающие из того же сосуда. Это и есть «механизм двигателя» мышления — способность классифицировать новые явления через аналогии, а не через прямое копирование прошлых данных.

Маркус критикует аргументы сторонников «Горького урока» Рича Саттона, которые верят, что достаточно просто бесконечно масштабировать вычислительную мощность и объемы данных, и разум появится «сам собой». Он утверждает, что гипотеза «эмерджентности» (возникновения разума из чистого накопления данных) — это путь в никуда. Вместо того чтобы полагаться на случайные совпадения в терабайтах данных, исследователям нужно найти способ объединить комбинаторную мощь символьных систем с гибкостью обучения. Без создания когнитивной модели, способной манипулировать сущностями и отслеживать их изменения в пространстве, мы останемся в мире, где машины могут делать «узкие» выводы (как GPS-навигаторы), но беспомощны перед задачами, требующими настоящего, общего понимания реальности.

🧠 Необходимость фундаментальной семантики в ИИ 1:31:37

Дискуссия о будущем искусственного интеллекта неизбежно упирается в фундаментальный вопрос: как мы можем перевести наши намерения в понятный для системы код, сохранив при этом глубокую семантическую структуру? Сегодня процесс создания нейронной сети зачастую сводится к набору стандартных операций: импорту модулей, выстраиванию слоев, определению функции потерь и оптимизатора. Однако, как отмечает Луис Ламб, такая «инженерная» рутина скрывает за собой отсутствие подлинного семантического фундамента.

Луис Ламб подчеркивает, что современные методы «эмбеддингов» (вложений), при всей их эффективности в векторных пространствах, являются лишь стратегией реализации, а не полноценной семантикой. Использование тензорных произведений и линейной алгебры позволяет нам манипулировать данными, но не дает системе «понимания» того, что стоит за этими векторами. Реальные отношения между объектами в языке или визуальных сценах, которые мы пытаемся выучить, требуют формальной основы, выработанной десятилетиями в области символьного ИИ. Без этого мы остаемся в рамках «поверхностных» решений, где машина может ответить на вопрос «какого цвета небо?», но не способна построить логическую модель мира, которая позволила бы ей самостоятельно совершать открытия в материаловедении или медицине.

Исторический контекст и логика символов 1:36:36

Критика текущего состояния дел в ИИ не является попыткой отрицать успехи нейронных сетей; это призыв к признанию того, что символьные методы и логика никуда не исчезли. Более того, они лежат в основе всей современной архитектуры компьютеров. Луис Ламб напоминает, что Уоррен Мак-Каллок и Уолтер Питтс, которых называют отцами нейронных сетей, в своих ранних работах 1940-х годов уже демонстрировали, как сети могут выполнять логические булевы операции. Они были когнитивистами, которые видели в нейронных сетях инструмент для реализации логического вывода — по сути, они были первыми нейросимволистами.

Игнорирование этого наследия в пользу бесконечной гонки за повышение точности на узких задачах (вроде ImageNet) тормозит прогресс. Мы наблюдаем ситуацию, которую Гэри Маркус сравнивает с тремя стадиями научной истины Лео Силарда: «сначала говорят, что это ошибка, потом — что это неважно, и наконец — что мы знали это всё время». Многие аргументы, за которые Гэри Маркуса травили в социальных сетях несколько лет назад (например, о неспособности моделей к абстракции и отсутствию реальной семантики), сегодня становятся «общепринятой мудростью» даже среди его бывших оппонентов.

Будущее: Интеграция вместо конфронтации 1:38:18

Оба эксперта сходятся в том, что «умеренная» позиция — поиск синтеза между статистическим обучением и символьной логикой — является единственно верным путем. Гэри Маркус подчеркивает, что хотя нейронные сети незаменимы для определенных типов генерализации, например, распознавания образов или лиц, они терпят крах, когда требуется чистое абстрактное мышление.

Луис Ламб выражает оптимизм: исследователи из сообществ баз данных, логики и глубокого обучения начинают объединять усилия. Работы ученых вроде Алона Халеви, применяющего принципы Datalog (расширения Prolog) для создания «нейронных баз данных», показывают, что мост между мирами уже строится. По мнению Ламба, в ближайшие пять лет мы увидим гораздо более глубокую интеграцию, где символьные методы будут обеспечивать каркас рассуждений, а нейронные сети — обрабатывать сложную, неструктурированную информацию. Ранее в разговоре они касались проблем ограничения глубокого обучения и вопроса интенции против экстенции, однако ключевой вывод остается неизменным: современный ИИ нуждается в возвращении к фундаментальной семантике, чтобы выйти за пределы простого статистического предсказания.

🧠 Узкое место: проблема приобретения знаний 1:41:55

В современной гонке за созданием «универсального ИИ» индустрия совершает фундаментальную ошибку, пытаясь найти один «волшебный алгоритм», который решит все задачи. По мнению Гэри Маркуса (Gary Marcus), правильное решение — это всегда комбинация эффективного алгоритма и масштабной базы знаний. Сегодняшний мейнстрим пытается игнорировать вторую часть уравнения, надеясь, что данные сами по себе заменят понимание.

Проблема в том, что даже самый совершенный алгоритм бесполезен в вакууме. Гэри Маркус проводит аналогию с трехмесячным ребенком: у него может быть лучшая в мире когнитивная система (врожденные механизмы), но он еще не обладает знаниями о мире, чтобы пройти тест на сборку мебели из IKEA. Мы не можем просто выбросить систему только потому, что она «необразованна». ИИ сегодня напоминает такого младенца, которому пытаются скормить весь интернет, вместо того чтобы дать структурированные знания о физике и человеческой психологии.

Наследие Cyc и «узкое место» символьных систем 1:47:41

Луис Ламб (Luis Lamb) отмечает, что неудача классического ИИ (GOFAI) в 80-х годах была вызвана именно «узким местом» приобретения знаний (knowledge acquisition bottleneck). В то время знания в системы вносились вручную программистами, что делало их хрупкими и неспособными к масштабированию. Когда ситуация немного менялась, системе требовалась новая порция «захардкоженных» правил.

Сегодня мы сталкиваемся с тем же вызовом, но на новом уровне. Луис Ламб сравнивает процесс создания знаний с объектно-ориентированным программированием:

Человек, проектируя классы и иерархии наследования, создает абстракции (например, «животное» → «млекопитающее»), которые отлично обобщаются.
Нам необходим ИИ, способный выполнять такую абстракцию автоматически, не полагаясь на ручной труд тысяч инженеров.

Гэри Маркус вспоминает проект Cyc Дугласа Лената как героическую, хотя и не до конца успешную попытку построить такую базу знаний вручную. На создание Cyc ушло около 1500 человеко-лет, что кажется огромной цифрой, но это меньше, чем затраты на разработку Google Search. Маркус считает, что создание машиночитаемой базы знаний — это «пуля, которую индустрии придется проглотить», как бы сильно исследователи ни хотели этого избежать.

«Медленно — это быстро»: почему данные из Reddit не заменят логику 1:51:35

В среде преподавателей игры на гитаре есть поговорка: «Медленно — это быстро, а быстро — это медленно». ИИ-сообщество выбрало «быстрый» путь: зачерпнуть гигантские массивы данных из Reddit, полные предвзятости, антинаучного бреда и шума. Это дает впечатляющие результаты в краткосрочной перспективе, но не ведет к глубоким ответам.

Ранее в разговоре эксперты уже упоминали ограниченность чисто статистического подхода глубокого обучения, и здесь они возвращаются к идее «априорных знаний» (priors). Вместо того чтобы обучать нейросеть всему с нуля, нужно внедрять в неё базовые принципы, такие как пространственно-временная непрерывность: объекты не могут просто исчезать и появляться в другом месте, как в телепорте «Звездного пути».

Джош Тененбаум — один из немногих, кто пытается формализовать такие физические и психологические «априори». Однако для большинства исследователей работа над одним таким фактом (например, как представить в сети причинно-следственную связь) кажется слишком долгой и депрессивной по сравнению с возможностью поднять точность на ImageNet на 1% за шесть недель, просто «подкрутив параметры».

Дискретность языка и реляционное обучение 1:53:57

Луис Ламб подчеркивает фундаментальную техническую сложность: дискретные отношения (символы) плохо сочетаются с градиентным спуском нейронных сетей. В то время как изображения или сигналы идеально подходят для поиска паттернов и корреляций, структура естественного языка глубоко реляционна и грамматична.

Проблема «пропущенного текста», о которой говорит лингвист Валид Саббах, заключается в том, что большая часть смысла высказывания вообще не произносится вслух. Мы опираемся на контекст и знания о мире. Луис Ламб предлагает использовать инструменты из формальной семантики и логики, такие как семантика возможных миров (possible world semantics), чтобы ИИ мог интерпретировать не только то, что сказано, но и ситуацию, в которой это было сказано.

«Язык структурирован, и эта структура тесно коррелирует с дискретностью. Сложность создания систем глубокого обучения для реляционных рассуждений — это тот же вызов, что и создание систем для понимания языка».

Нейросимволический подход (ранее обсуждавшийся как гибридная модель) видится Луису Ламбу наиболее перспективным, так как он позволяет не просто «скармливать данные огромной сети», а использовать инструменты представления знаний для предобработки и структурирования информации. Это возвращает нас к необходимости строить системы, которые не просто имитируют вероятность слов, а оперируют дискретными структурами знаний.

🧠 Дихотомия мышления: почему будущее ИИ лежит на стыке опыта и графовых реляционных моделей 125:34

Обучение против рассуждения: когнитивный дуализм человеческого разума 125:46

Современный этап развития искусственного интеллекта требует качественного переосмысления того, как вычислительные системы работают с информацией. Луис Ламб (Luis Lamb) подчеркивает, что ключевой вызов современности заключается в проектировании инструментов, способных эффективно объединить дискретную природу человеческого языка и отношений с непрерывными характеристиками нейросетевых подходов. Ранее в разговоре исследователи уже подробно разбирали нейросимволический подход как фундаментальное решение этой проблемы. Вслед за Гэри Маркусом (Gary Marcus), профессор Ламб указывает, что построение сильной ИИ-архитектуры невозможно без глубокого понимания человеческой специфики: люди, вопреки расхожему мнению, изначально не очень хороши в строгом логическом выводе. Человеческий мозг гораздо эффективнее справляется с восприятием образов и неформальным пониманием контекста, тогда как формальная логика дается нам с большим трудом.

Если наделить современные ИИ-системы способностью к надежному логическому выводу, это позволит решить одну из сложнейших задач — масштабировать качественную аналитику и сделать «рассуждения доступными для широких масс». Такие инструменты могли бы беспристрастно разрешать комплексные бизнес-споры, конфликты между компаниями или социальными группами. В основе же человеческой способности к рассуждениям лежит сложный дуализм, описанный Даниэлем Канеманом через призму взаимодействия Системы 1 и Системы 2. Наш разум демонстрирует впечатляющие результаты логического вывода преимущественно в узких зонах личной экспертизы.

Накопление опыта и глубоких знаний человеком происходит десятилетиями в строго определенных областях:

Музыкальное искусство и композиция
Спортивные дисциплины, например футбол
Узкоспециализированные направления, вроде французского импрессионизма

Внутри своей дисциплины эксперт за годы работы аккумулирует колоссальный массив данных и реагирует на задачи мгновенно, задействуя механизмы быстрой Системы 1. Однако за пределами этой экспертизы — что наглядно иллюстрируют хаотичные политические дискуссии в социальных сетях — люди легко теряют способность к объективному логическому анализу, смешивая аргументы с эмоциями и контекстуальными искажениями. Нынешние технологии глубокого обучения напоминают таких гиперинтенсивных экспертов: они великолепно находят корреляции в огромных массивах размеченных данных, но не обладают прочным когнитивным фундаментом, способным обеспечить осмысленное понимание естественного языка.

Природа логического модуля: биологический субстрат и распределенный разум 135:13

Этот дуализм подводит к фундаментальному вопросу: является ли логическое рассуждение «первоклассным гражданином» (first-class citizen) человеческой когнитивной системы, или же это лишь побочный продукт накопленного опыта? Луис Ламб убежден, что способность к рассуждению фундаментальна, однако она неотделима от процессов обучения. Профессиональный математик или логик, тратящий годы на доказательства теорем, во многом действует подобно модели глубокого обучения, которая проанализировала 10 миллионов примеров эталонных логических цепочек. Наш разум совершенствует свои аналитические паттерны исключительно через непрерывное практическое взаимодействие с внешним миром.

Тем не менее, перед создателями ИИ встает классическая дилемма когнитивистики: существует ли в мозге специализированный изолированный модуль, отвечающий за логику, или же эти процессы протекают на том же самом биологическом субстрате, который отвечает за базовое распознавание паттернов? Луис Ламб открыто признает, что на сегодняшний день у науки недостаточно эмпирических свидетельств из области нейробиологии для окончательного ответа. Ранее собеседники затрагивали смежную тему — проблему приобретения знаний, которая упирается в аналогичные ограничения. Сейчас в сообществе исследователей машинного обучения доминирует гипотеза, согласно которой человеческий мозг использует распределенные представления знаний и распределенные формы логического вывода. Эта концепция распределенной семантики открывает новые горизонты для проектирования ИИ-систем.

Перспективы графовых нейросетей и рождение реляционной семантики 139:32

Рассматривая абстрактные свойства биологических систем, которые можно было бы перенести в кремниевые архитектуры (такие как асинхронная активация нейронов или обратная связь на уровне дендритов), ученые ищут новые вычислительные парадигмы. Луис Ламб отмечает феноменальный успех моделей трансформеров и механизмов внимания в задачах моделирования последовательностей. Однако своим главным фаворитом для долгосрочных исследований профессор считает графовые нейронные сети (GNN).

Главное преимущество GNN заключается в их природной способности эффективно оперировать реляционными структурами и представлять связи между объектами. Это дает исследователям надежду на успешное освоение дискретных и ограниченных реляционных доменов, которые остаются труднодоступными для стандартных нейросетей. Ламб предсказывает, что в ближайшие годы на стыке этих идей возникнут полноценные «реляционные нейронные сети», архитектура которых будет вдохновлена GNN. Интеграция таких моделей позволит совершить качественный прорыв в машинном переводе и анализе текстов, обеспечив ИИ полноценную семантическую базу.