Гэри Маркус: «Современные нейросети просто занимаются зазубриванием данных»

В очередном выпуске подкаста Machine Learning Street Talk известный когнитивный ученый и предприниматель Гэри Маркус подверг глубокому критическому анализу современные тренды в индустрии искусственного интеллекта. В ходе беседы эксперт подробно разобрал технологические тупики глубокого обучения, проблему экстраполяции данных в нейросетях и ложность так называемых «законов масштабирования». Особое внимание было уделено необходимости перехода к гибридным нейросимволическим архитектурам, способным строить стабильные когнитивные модели мира, без которых, по мнению гостя, невозможно достижение подлинного сильного ИИ (AGI).

🧠 Иллюзия цифрового сознания: Гэри Маркус против Ильи Суцкевера 1:29

Обсуждение началось с резонансного заявления сооснователя и на тот момент шеф-ученого OpenAI Ильи Суцкевера о том, что современные большие языковые модели (LLM) могут быть «слегка сознательными». Гэри Маркус выразил крайний скептицизм по поводу этого тезиса, отметив, что в научном сообществе до сих пор нет четкого определения или общепринятого «измерителя» сознания.

По мнению Маркуса, заявления о сознательности ИИ лишены оснований по следующим причинам:

Отсутствие семантического заземления: Модели не связывают слова с реальными физическими объектами или опытом.
Статистический анализ данных: Работа LLM представляет собой продвинутый сбор статистики по масштабным массивам текстовых данных, а не осмысление.
Матричное умножение: В основе этих систем лежит обычное перемножение матриц, и Маркус не видит логических причин, почему увеличение объема этих вычислений должно приводить к магическому преодолению порога сознания.

Профессор иронично заметил, что если встать на позицию экстремального панпсихизма (согласно которому сознанием обладают даже камни), то тогда сознательной можно назвать любую компьютерную программу. Однако в контексте Кремниевой долины подобные заявления, по мнению гостя, подхватываются медиа исключительно из-за специфики местной динамики власти и авторитета спикеров.

В качестве контраргумента Маркус привел в пример обычный GPS-навигатор в смартфоне. По его словам, навигационная система Waze обладает куда большими признаками «самосознания», чем GPT-3. Навигатор четко представляет свое текущее положение в физическом пространстве и времени, интегрирует данные из Сети и принимает функциональные решения на основе этой модели мира. GPT-3, напротив, не способна определить собственное положение и не строит пространственно-временных репрезентаций реального мира.

🎭 Когнитивные модели и «театр сознания» 13:30

Развивая тему природы разума, Гэри Маркус подчеркнул, что критически важной частью человеческого сознания является построение стабильной когнитивной модели окружающего мира. Философия учит, что люди не имеют прямого доступа к внешней реальности — восприятие полностью опосредовано органами чувств, на основе которых мозг конструирует внутреннюю модель.

Эта внутренняя репрезентация обладает свойством стационарности, хотя и постоянно обновляется при поступлении новой информации. В качестве примера ученый привел куб Неккера, изображение которого в нашем сознании периодически «переворачивается», демонстрируя динамическую смену ментальной модели при неизменном внешнем стимуле.

Для иллюстрации этого процесса Маркус упомянул свой личный опыт просмотра детективного сериала Netflix с Кристен Белл в главной роли:

Построение гипотез: На протяжении восьми серий зритель непрерывно перестраивает свою ментальную модель происходящего (кто убийца, галлюцинирует ли героиня, каков ее ментальный статус).
Удержание контекста: Каждый новый эпизод заставляет сознание адаптировать накопленные знания, удерживая целостную картину сюжета.

По заверению Маркуса, ни одна современная большая языковая модель не способна на подобное удержание и динамическое обновление целостной структуры. Профессор согласился с когнитивным подходом Даниэла Деннета, описывающим этот процесс как «театр сознания», где разум оперирует стабильными внутренними репрезентациями, над которыми затем осуществляются вычислительные операции.

🕳️ Эффект Элизы и «пропасть доверчивости» 19:59

Одной из главных причин, почему люди склонны приписывать разумность диалоговым системам, Гэри Маркус назвал «пропасть доверчивости» (gullibility gap) — концепт, подробно описанный в его книге Rebooting AI. Истоки этого феномена уходят к программе «Элиза» (Eliza), созданной еще в 1965 году.

Человеческая эволюция не готовила наш вид к необходимости отличать машины от людей, поскольку в естественной среде обитания предков языком обладали только другие Homo sapiens. Сталкиваясь даже с минимальным проявлением лингвистической интерактивности (например, когда «Элиза» в ответ на фразу о грусти предлагает рассказать о семье), человек автоматически ассимилирует программу в категорию разумных существ. При этом реальный интеллект системы может быть значительно ниже, чем у домашней собаки.

Аналогичное проявление «пропасти доверчивости» Маркус усматривает в индустрии автономного вождения. Обещания о скором появлении беспилотников пятого уровня звучат с 1970-х годов. Видя, как машина успешно справляется с управлением в течение одной минуты, неспециалисты экстраполируют этот успех на всю задачу. Однако реальная проблема кроется на «длинном хвосте» редких, нестандартных ситуаций (outliers).

Для безопасного вождения необходим полноценный когнитивный аппарат, способный к композиционному мышлению. Маркус привел пример критической уязвимости системы Tesla FSD, зафиксированной независимыми тестами незадолго до интервью:

Суть инцидента: Электромобиль под управлением автопилота едва не совершил наезд на пешехода, который нес в руках дорожный знак «Stop» на шесте.
Причина сбоя: В ограниченном репертуаре когнитивной модели Tesla отсутствовал абстрактный глагол «нести» применительно к знакам. Система умеет распознавать неподвижные знаки, закрепленные в грунте, но сценарий с человеком, держащим знак наподобие «большого леденца», оказался за пределами ее обучающей выборки.

Человеческий же разум моментально собирает целое из знакомых частей: человек + шест + восьмиугольник знака, мгновенно выстраивая верную логику поведения.

🧩 Композиционность и символы: Бенджио против Хинтона 25:46

Центральным методологическим требованием для создания сильного ИИ Гэри Маркус считает композиционность — способность разума разбирать сложные сущности на составляющие части, анализировать их и собирать заново в других контекстах.

Ведущие подкаста упомянули подход Йошуа Бенджио и его работу над сетями генеративных потоков (G-flow nets), которые призваны обучать нейросети композиционным деревьям для извлечения абстрактных моделей. Маркус согласился, что концептуально это верное направление, фактически представляющее собой шаг в сторону нейросимволической когнитивистики.

В то же время проект GLOM Джеффри Хинтона, нацеленный на сборку «целого из частей», вызвал у Маркуса критические замечания. По мнению профессора, Хинтон фактически пытается построить классическую символическую модель, но избегает называть вещи своими именами. Векторные эмбеддинги в GLOM проектируются так, чтобы оставаться стабильными независимо от контекста, что, согласно Маркусу, является фундаментальным определением символа (аналогично стабильному коду ASCII для буквы «A»).

Главная проблема мейнстримных LLM заключается в невозможности извлечь отдельные структурные элементы из общей массы весов. В качестве примера Маркус привел тестирование системы Proofwriter от института Allen AI на логический вывод:

Тест: Системе подавалось утверждение «Эймс — умный шпион» (Ames is a clever spy) и задавался вопрос: «Является ли Эймс шпионом?».
Результат: Нейросеть ответила «Нет».

В полноценной композиционной системе такой сбой невозможен, так как грамматический разбор фразы четко определяет слово «шпион» как главное существительное, модифицируемое прилагательным.

Еще хуже современные архитектуры справляются с отрицанием (например, разграничением утверждений «Джон жив» и «Джон не жив»). Из-за отсутствия жестких символических правил предложения с противоположным смыслом могут оказываться слишком близко друг к другу в латентном пространстве модели, приводя к логическим галлюцинациям.

📊 Математика против памяти: Проблема экстраполяции в нейросетях 32:46

В рамках дискуссии была затронута геометрическая интерпретация нейросетей, предложенная исследователем Рэндаллом Балестриеро, который сравнил их с таблицами локально-чувствительного хеширования, разбивающими многомерное пространство на полиэдры. Из этой логики следует, что нейросети сильны в интерполяции (сглаживании данных внутри известного подпространства), но принципиально не способны к истинной экстраполяции.

Гэри Маркус поддержал этот тезис, назвав нейросети «сложными устройствами для зазубривания». В подтверждение он сослался на недавнее исследование лаборатории Самира Сингха, где изучались математические способности модели GPT-J. Авторы работы проанализировали открытый датасет The Pile и обнаружили прямую линейную зависимость: точность выполнения операций умножения моделью напрямую коррелирует с тем, насколько часто конкретные цифры и примеры встречались в обучающей выборке. Если изменить компоненты примеров на те, что отсутствовали в обучении, точность катастрофически падает.

Маркус напомнил, что заявлял об этой фундаментальной ограниченности коннекционизма еще в 1998 году в своей работе, посвященной функции тождества (identity function). Тогда его выводы были восприняты сообществом в штыки, а один из коллег даже назвал публикацию «террористической атакой на коннекционизм». Тем не менее за прошедшие десятилетия ситуация в корне не изменилась.

На возражение Янна Лекуна и Рэндалла Балестриеро о том, что в высокоразмерных пространствах любой новый шаг технически является экстраполяцией (так как точки выходят за пределы выпуклой оболочки обучающей выборки), Маркус ответил прагматично:

«Кому вы поверите: мне или своим собственным глазам? Эмпирически мы видим, что эти системы по-прежнему спотыкаются на элементарной экстраполяции».

Для Маркуса подлинная экстраполяция носит строго алгебраический характер. Например, базовое уравнение $y = x + 2$ позволяет мгновенно вычислить результат для любого абстрактного значения переменной на бесконечном множестве чисел. Обычный копеечный калькулятор делает это безупречно, поскольку оперирует символическими правилами. Нейросети же пытаются эмулировать математические функции, создавая избыточные репрезентации («космический мусор», по выражению ведущего) вокруг известных примеров, и уповают на удачу при встрече с новыми данными.

📉 Миф о законах масштабирования и феномен Гроккинга 44:24

В завершение встречи Гэри Маркус подверг критике знаменитую статью Джареда Каплана и команды OpenAI о «законах масштабирования» (scaling laws) больших языковых моделей. По мнению когнитивиста, использование термина «законы» здесь является риторическим трюком — это не фундаментальные законы физической вселенной, а лишь временные эмпирические наблюдения в рамках конкретного технологического режима и ограниченного набора задач.

Простое наращивание параметров и данных помогает ИИ лучше запоминать обучающий набор, но не решает проблему глубокого понимания. Маркус указал на признаки насыщения и выхода на плато (diminishing returns) во многих сферах:

Моральные дилеммы: Исследования компании Anthropic фиксируют замедление качественного роста моделей при увеличении масштаба.
Безопасность и предвзятость: С увеличением масштаба моделей проблема заложенных в них искажений (bias) и токсичности не исчезает, а в некоторых случаях даже усугубляется, поскольку ИИ начинает эффективнее воспроизводить худшие исторические паттерны из человеческих текстов.
Понимание языка: Реальный прогресс в осмыслении контекста остается крайне скромным и находится «практически на полу» по сравнению со скоростью зазубривания токенов.

Ведущий подкаста добавил, что феномены вроде «гроккинга» (grokking) или эффекта двойного спуска (double descent), когда модель внезапно обретает обобщающую способность после долгого переобучения, могут быть лишь артефактом конкретного метода оценки. Ссылаясь на работу Wilson & Izmailov «Bayesian Deep Learning and a Probabilistic Perspective on Generalization», он отметил, что данные эффекты характерны для метода максимального правдоподобия (MLE). При переходе к более строгому байесовскому усреднению моделей (Bayesian model averaging) эти аномалии полностью исчезают.

Индустрия беспилотных авто и генеративного ИИ вложила уже порядка 50 миллиардов долларов в гипотезу о том, что масштабирование данных решит проблему «длинного хвоста». Однако Гэри Маркус убежден, что эта ставка не оправдает себя, и разработчикам неизбежно придется вернуться к чертежам, чтобы строить богатые, структурированные и гибридные когнитивные архитектуры.