Валид Саба об ИИ: «Нейросети не способны к композициональности»

В новом выпуске ИТ-интервью на канале Machine Learning Street Talk ведущий Тим вместе с доктором наук Китом Даггаром и исследователем искусственного интеллекта Валидом Сабой провели глубокий анализ математических оснований глубокого обучения. Собеседники разобрали, почему современные архитектуры буксуют при выходе за пределы обучающего распределения, как синергия непрерывного и дискретного миров определяет логику вычислений и почему ИИ до сих пор не способен к истинному рассуждению. Центральной темой дискуссии стал поиск математических определений для интуитивных понятий, которыми оперируют разработчики.

🧩 Парадокс экстраполяции в многомерных пространствах 0:00

В начале дискуссии ведущий продемонстрировал визуализацию работы многослойного перцептрона (MLP) на двумерном многообразии, где часть данных была намеренно удалена. Вопреки ожиданиям, нейросеть смогла успешно восстановить структуру за пределами области обучения, заполнив пропуски. Тим отметил, что это ставит под сомнение привычный взгляд на нейросети как на локально-чувствительные хэш-таблицы, чья способность к генерализации за пределами обучающей выборки полностью завязана на индуктивных смещениях архитектур вроде CNN или трансформеров.

Однако попытка строго определить, что именно считать экстраполяцией, сталкивается с серьезными геометрическими препятствиями. Как подчеркнул Кит Даггар, классическое математическое определение через «выход за пределы выпуклой оболочки» (convex hull) мгновенно теряет смысл при переходе к пространствам высокой размерности. В таких условиях объем выпуклой оболочки выборки сжимается экспоненциально, стремясь к нулю относительно всего пространства выборки.

В качестве альтернативы исследователи рассматривают другие геометрические подходы, такие как выравнивание по осям ограничивающего параллелепипеда (bounding box). Тем не менее, по словам Даггара, на сегодняшний день в научном сообществе нет консенсуса и единой формализованной метрики, которая адекватно описывала бы экстраполяцию в высокомерных объектах, не деградируя математически.

📐 Непрерывность пространства и ловушка нечетких определений 5:20

Доктор Валид Саба предложил взглянуть на проблему с позиции теории информации. По его мнению, экстраполяция по своей сути эквивалентна логической дедукции — процессу вывода нового знания на основе уже имеющихся фактов для покрытия невиданных ранее данных.

Кит Даггар выдвинул контраргумент, призвав упростить модель до одномерного пространства. Если обучить систему на точках -1 и 1, будет ли вычисление функции в точке 0 считаться экстраполяцией? С математической точки зрения точка 0 является новой, поскольку сеть ее не видела, однако традиционно это называют интерполяцией из-за базового предположения о связности и упорядоченности пространства. Из-за этого Даггар считает классическое определение экстраполяции как «работы с невиданными данными» либо бесполезным, либо полностью зависимым от скрытых допущений о непрерывности.

Приняв это замечание, Валид Саба скорректировал свой тезис, определив экстраполяцию как дедукцию в непрерывном пространстве. С его точки зрения, ключевой вызов здесь лежит в плоскости метрик точности и полноты (precision и recall):

Необходимо расширять зону покрытия алгоритма за пределы линейного входа.
При этом важно избегать включения в эту зону заведомо ошибочных или невалидных точек пространства.

Именно с нарушением этого баланса Валид Саба связывает феномен состязательных примеров (adversarial examples). По мнению гостя, современные нейросети склонны к «избыточному обучению» — они необоснованно расширяют границы своих предположений и затем проводят интерполяцию внутри этих невалидных областей.

🔢 От бинарных оценок к дробной метрике генерализации 13:38

Вместо жесткого бинарного разделения на интерполяцию и экстраполяцию Кит Даггар предложил ввести непрерывную шкалу. По его замыслу, гораздо продуктивнее оценивать «степень» экстраполяции в процентах: например, классифицировать инференс конкретного сэмпла как на 97% экстраполированный и на 3% интерполированный.

Разработка такой математической метрики, как считает Даггар, открыла бы перед инженерами принципиально новые возможности:

Точное измерение способности различных архитектур к генерализации на конкретных датасетах.
Оптимизация вычислительных ресурсов за счет понимания, когда плотность данных уже достаточна и условные «еще 200 миллионов сэмплов» не изменят качество модели.
Прямое сравнение трансформеров и многослойных перцептронов по шкале устойчивости к удалению из распределения.

Разговор коснулся и дискретных, неупорядоченных пространств, где геометрическая близость теряет всякий смысл. Примером может служить таблица истинности для функции «исключающее ИЛИ» (XOR). В таких задачах любую комбинацию входов можно представить как вершину гиперкуба произвольной размерности, где все точки равноудалены друг от друга. В этом контексте Тим напомнил о концепции Франсуа Шолле, разделяющего генерализацию на два типа, и поднял вопрос о том, как измерять абстракцию в системах программного синтеза и символьного вывода.

🧠 Кризис композициональности: почему нейросети «теряют» составные части 24:59

Валид Саба высказал тезис, что нейронные сети фундаментально не способны к композициональности в том виде, в каком она существует в дискретном символьном мире. Он сослался на классическую критику 1980-х годов, авторы которой доказали тривиальность расхожего убеждения, будто любая функция, зависящая от своих входов, является композициональной.

По мнению Сабы, истинная композициональность определяется не умением собрать целое из кусков, а возможностью провести обратную декомпозицию:

Математический объект (например, число 10) может быть результатом множества операций: 5 * 2 или 6 + 4.
Как только нейросеть принимает сигналы на слое и «схлопывает» их в один непрерывный тензор или вещественное число вроде 0.89, информация о путях его получения теряется навсегда.
Из-за отсутствия явной синтаксической структуры в глубоком обучении невозможно реализовать полноценный объяснимый ИИ (XAI), поскольку алгоритм не способен развернуть свои шаги назад.

Кит Даггар поддержал эту позицию с инженерной точки зрения. Поскольку современные архитектуры не умеют хранить промежуточные компоненты вычислений в виде неизменяемых переменных, им приходится компенсировать это избыточностью. Сеть вынуждена заранее дублировать внутри своего вектора все потенциально полезные комбинации признаков на случай, если они понадобятся на следующих слоях. Именно в этом, по мнению Даггара, кроется причина колоссальной разницы в эффективности использования ресурсов между глубоким обучением и классическим символьным подходом. Чтобы проиллюстрировать необходимость оперирования именно «частями» объекта, Кит привел математическую логическую загадку о двух логиках (Пауле и Сэме), знающих сумму и произведение двух секретных чисел, решение которой принципиально требует рассуждения над компонентами, а не над итоговыми величинами.

🌌 Квантовые параллели: мост между данными и символьным разумом 34:25

Продолжая сопоставление непрерывного и дискретного, Валид Саба отметил, что теоретическое превосходство непрерывных пространств (способных поглотить в себя дискретные функции) на практике оборачивается проблемой обучаемости. Поиск нужной дискретной функции в бескрайнем континууме напоминает поиск иголки в стоге сена. Кит Даггар добавил, что при попытках обучить дифференцируемые нейронные компьютеры (DNC) или нейронные машины Тьюринга формировать четкие дискретные зоны, алгоритм сталкивается со взрывом градиентов на резких границах переходов, что ломает процесс оптимизации.

Даггар провел неожиданную аналогию с теоретической физикой, напомнив, что уравнение Шрёдингера — фундамент квантовой механики — является абсолютно непрерывным дифференциальным уравнением. Дискретные квантовые числа и энергетические уровни появляются в нем исключительно тогда, когда физики искусственно вводят дискретные граничные условия, например, помещая частицу в потенциальную яму.

В цифровой технике происходит аналогичный процесс «дефуззификации» (устранения нечеткости). Сигнал внутри транзистора по своей природе непрерывен, но инженеры задают жесткий порог (например, 0.7 В), принудительно интерпретируя все, что ниже, как 0, а все, что выше — как 1. По словам Даггара, этот пороговый переход является фундаментально нелинейным процессом, аналогичным коллапсу волновой функции в физике, и линейное уравнение Шрёдингера само по себе не способно его объяснить.

В финале дискуссии Валид Саба и Кит Даггар сошлись во мнении, что современная наука об искусственном интеллекте подошла к той же стене, что и физика прошлого века. Полноценный прорыв невозможен без создания «единой теории», способной связать низкоуровневый квантовый слой обработки сырых данных (где доминируют нейросети) с макроскопическим уровнем высокоуровневого символьного мышления и логических рассуждений. Именно эту задачу сегодня пытаются решить исследователи в рамках гибридного нейросимволического ИИ.