Томас Люкс о геометрии ИИ: почему нейросети — это адаптивная интерполяция

Machine Learning Street Talk 15,2 тыс. 50 мин 5 мин 12.03.2022
Главное

Все задачи машинного обучения с учителем можно рассматривать через призму геометрии: обучающие данные — это точки в евклидовом пространстве, а цель модели — предсказать значение функции в любой из этих точек. В то время как нейронные сети стали стандартом индустрии, фундаментальный вопрос остается открытым: чем они геометрически лучше классических методов, таких как метод ближайших соседей или триангуляция?

Доктор Томас Люкс (Thomas Lux), исследователь из Meta AI, специализирующийся на численном анализе, предлагает взглянуть на нейросети как на адаптивные механизмы интерполяции. Его работа сосредоточена на определении границ ошибок через расстояния, направления и производные, что позволяет понять, почему MLP (многослойные перцептроны) справляются с задачами там, где классика бессильна.


📐 Геометрия интерполяции: от триангуляции до нейросетей 4:16

Математический фундамент Томаса Люкса лежит в численном анализе — изучении того, как накапливаются ошибки при вычислениях. С этой точки зрения любая нейросеть с активацией ReLU — это не магический «черный ящик», а гигантская кусочно-линейная функция. Как только мы осознаем это, возникает прямая связь с триангуляцией Делоне.

Триангуляция Делоне представляет собой обобщение линейной интерполяции на любую размерность. Её ключевые особенности:

Однако классические методы, такие как триангуляция Делоне или метод Шепарда (обратное взвешивание расстояний), сталкиваются с «проклятием размерности». В то время как линейная функция в $D$ измерениях определяется ровно $D + 1$ точкой, в пространствах высокой размерности (например, в изображениях с миллионами пикселей) количество необходимых данных для заполнения пространства растет экспоненциально.


🚀 Почему нейросети побеждают классические алгоритмы 10:42

В ходе экспериментов Томас Люкс сравнивал MLP с классическими методами, такими как MARS (многомерные адаптивные регрессионные сплайны) и метод Шепарда. Выяснилось, что нейросети обладают уникальным преимуществом — способностью к нелинейному снижению размерности.

Основные отличия нейросетей от классики:

  1. Распределение вычислительной мощности: Классические методы часто предполагают, что данные распределены равномерно или что все направления в пространстве одинаково важны. Нейросети же концентрируют свои ресурсы там, где функция меняется сильнее всего.
  2. Дизъюнкция плотности данных и информации: Наличие большого количества данных в регионе не означает, что этот регион важен для обучения. Нейросети умеют игнорировать избыточные данные, если ошибка в этом месте и так мала.
  3. Адаптивное разбиение: В отличие от жестких сеток, нейросети создают специфические для входных данных нерегулярные решетки, разбивая пространство на политопы (многогранники).

По мнению Люкса, секрет успеха нейросетей в таких задачах, как распознавание образов, кроется в их способности «вырезать» из огромного входного пространства только те подмножества, которые действительно влияют на результат.


🧠 Загадка инициализации: почему веса почти не движутся? 17:46

Интуитивно кажется, что в процессе обучения нейроны «мигрируют» к обучающим данным. Однако исследования Томаса Люкса показывают обратное. Записывая изменения параметров сдвига (bias), направлений и амплитуд весов, он обнаружил странный феномен: термины сдвига практически не меняются с момента инициализации.

Это означает, что:

Кит Даггар и Томас Люкс обсуждают это через призму кривизны ландшафта потерь. Изменение направления гиперплоскости («поворот руки») вызывает гораздо более резкое изменение значений для далеких точек, чем простой сдвиг. Это создает ландшафт с высокой кривизной, что делает оптимизацию крайне сложной задачей.


🛰️ Экстраполяция как «космический мусор» 23:26

Одной из самых смелых идей дискуссии стала концепция экстраполяции как «фокуса». Ведущий Тим Скарф предположил, что нейросети на самом деле не умеют экстраполировать — они лишь превращают экстраполяцию в интерполяцию, «засоряя» пространство копиями данных через индуктивные смещения (inductive priors).

Примеры этого механизма:

По словам гостя, для честной символической экстраполяции нужно знать структуру функции. Если у нас есть две точки и мы проводим через них линию, мы можем предположить, что она пойдет так же и дальше, но это лишь предположение, основанное на доменных знаниях.


🤖 Трансформеры и апозиционная логика 25:36

Разбирая архитектуру трансформеров, Люкс выдвигает гипотезу, что их мощь заключается не в перестановках, а в агрегации. Он рассматривает трансформеры как обобщение «глубоких множеств» (deep sets), которые инвариантны к перестановкам.

Ключевая идея структуры будущего, по мнению Люкса:

  1. Апозиционный фронтенд (Unordered processing): Сначала данные обрабатываются без учета порядка (как набор токенов или пикселей), агрегируются и кодируются в эмбеддинг.
  2. Позиционный бэкенд (MLP): Затем стандартный перцептрон выполняет логическую обработку на основе полученных смыслов.

Такой подход позволяет модели игнорировать порядок там, где он не важен (например, в контексте предложения), но сохранять точность обработки конкретных значений.


⚡ ReLU против «гладких» функций: конец эпохи сигмоид 40:20

Многие критики утверждают, что использование гладких функций активации (вроде сигмоид) разрушает теорию сплайнов. Однако собеседники сошлись во мнении, что в современных сетях «гладкие локти» активаций практически не используются.


🔮 Будущее без обратного распространения ошибки 46:04

В финале Томас Люкс затронул тему Forward Gradients — метода обучения без классического Backprop, который сейчас активно обсуждается в научном сообществе.

Главная проблема текущих нейросетей — коллапс главных компонент при инициализации. В момент создания сети данные, проходя через слои, быстро теряют вариативность, схлопываясь почти в одну линию. Обучение методом форвардных градиентов (или правильная инициализация) позволяет увеличить разнообразие базисных функций, что дает лучший результат даже без сложной подгонки под выходные данные.

Томас Люкс уверен, что путь к объяснимому и надежному ИИ лежит через доказательство свойств этих базисных функций и контроль за тем, как данные морфируются (изменяются) при прохождении через слои сети.

💬 Цитаты

«Все задачи машинного обучения с учителем можно рассматривать через призму геометрии.»

Тим Скарф 00:26

«Нейросеть с ReLU — это просто гигантская кусочно-линейная функция.»

Томас Люкс 06:31

«Мы превращаем проблему экстраполяции в проблему интерполяции.»

Томас Люкс 35:25

«При инициализации данные почти всегда схлопываются в одну главную компоненту, и мы теряем информацию.»

Томас Люкс 49:46
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Триангуляция Делоне
Метод разбиения пространства на симплексы (треугольники), где внутрь описанной окружности не попадает ни одна точка.
Политоп
Геометрическая фигура в любом количестве измерений с плоскими гранями (многогранник).
Индуктивное смещение
Набор предположений, которые модель использует для предсказания результатов на данных, которые она еще не видела.
Коллапс главных компонент
Явление, при котором данные теряют свою вариативность и разнообразие при прохождении через случайно инициализированные слои сети.
📊 Цифры
🗓 Хронология
  1. Апрель 2021 Томас Люкс присоединился к команде Meta AI.
  2. 1990-е Появление алгоритма MARS, с которым Люкс сравнивает современные нейросети.
⚖️ Другая сторона
Искусственный интеллект Томас Люкс триангуляция Делоне ReLU MLP Meta AI