Все задачи машинного обучения с учителем можно рассматривать через призму геометрии: обучающие данные — это точки в евклидовом пространстве, а цель модели — предсказать значение функции в любой из этих точек. В то время как нейронные сети стали стандартом индустрии, фундаментальный вопрос остается открытым: чем они геометрически лучше классических методов, таких как метод ближайших соседей или триангуляция?
Доктор Томас Люкс (Thomas Lux), исследователь из Meta AI, специализирующийся на численном анализе, предлагает взглянуть на нейросети как на адаптивные механизмы интерполяции. Его работа сосредоточена на определении границ ошибок через расстояния, направления и производные, что позволяет понять, почему MLP (многослойные перцептроны) справляются с задачами там, где классика бессильна.
📐 Геометрия интерполяции: от триангуляции до нейросетей 4:16
Математический фундамент Томаса Люкса лежит в численном анализе — изучении того, как накапливаются ошибки при вычислениях. С этой точки зрения любая нейросеть с активацией ReLU — это не магический «черный ящик», а гигантская кусочно-линейная функция. Как только мы осознаем это, возникает прямая связь с триангуляцией Делоне.
Триангуляция Делоне представляет собой обобщение линейной интерполяции на любую размерность. Её ключевые особенности:
- Уникальность: Она создает единственную возможную сетку для заданного набора точек.
- Свойства пустой сферы: Ни одна точка из набора данных не попадает внутрь гиперсферы, описанной вокруг любого симплекса (обобщенного треугольника).
- Доказуемость: Для таких мешей можно строго доказать границы ошибок, что критически важно для надежности алгоритмов.
Однако классические методы, такие как триангуляция Делоне или метод Шепарда (обратное взвешивание расстояний), сталкиваются с «проклятием размерности». В то время как линейная функция в $D$ измерениях определяется ровно $D + 1$ точкой, в пространствах высокой размерности (например, в изображениях с миллионами пикселей) количество необходимых данных для заполнения пространства растет экспоненциально.
🚀 Почему нейросети побеждают классические алгоритмы 10:42
В ходе экспериментов Томас Люкс сравнивал MLP с классическими методами, такими как MARS (многомерные адаптивные регрессионные сплайны) и метод Шепарда. Выяснилось, что нейросети обладают уникальным преимуществом — способностью к нелинейному снижению размерности.
Основные отличия нейросетей от классики:
- Распределение вычислительной мощности: Классические методы часто предполагают, что данные распределены равномерно или что все направления в пространстве одинаково важны. Нейросети же концентрируют свои ресурсы там, где функция меняется сильнее всего.
- Дизъюнкция плотности данных и информации: Наличие большого количества данных в регионе не означает, что этот регион важен для обучения. Нейросети умеют игнорировать избыточные данные, если ошибка в этом месте и так мала.
- Адаптивное разбиение: В отличие от жестких сеток, нейросети создают специфические для входных данных нерегулярные решетки, разбивая пространство на политопы (многогранники).
По мнению Люкса, секрет успеха нейросетей в таких задачах, как распознавание образов, кроется в их способности «вырезать» из огромного входного пространства только те подмножества, которые действительно влияют на результат.
🧠 Загадка инициализации: почему веса почти не движутся? 17:46
Интуитивно кажется, что в процессе обучения нейроны «мигрируют» к обучающим данным. Однако исследования Томаса Люкса показывают обратное. Записывая изменения параметров сдвига (bias), направлений и амплитуд весов, он обнаружил странный феномен: термины сдвига практически не меняются с момента инициализации.
Это означает, что:
- Огромная часть обучения происходит за счет изменения направлений (poses) базисных функций, а не их положения в пространстве.
- Выбор начальных весов (инициализация) имеет решающее значение, так как модель во многом ограничена той случайной структурой, которая была создана в самом начале.
Кит Даггар и Томас Люкс обсуждают это через призму кривизны ландшафта потерь. Изменение направления гиперплоскости («поворот руки») вызывает гораздо более резкое изменение значений для далеких точек, чем простой сдвиг. Это создает ландшафт с высокой кривизной, что делает оптимизацию крайне сложной задачей.
🛰️ Экстраполяция как «космический мусор» 23:26
Одной из самых смелых идей дискуссии стала концепция экстраполяции как «фокуса». Ведущий Тим Скарф предположил, что нейросети на самом деле не умеют экстраполировать — они лишь превращают экстраполяцию в интерполяцию, «засоряя» пространство копиями данных через индуктивные смещения (inductive priors).
Примеры этого механизма:
- CNN (Сверточные сети): Используют совместное использование весов для трансляционной инвариантности. По сути, они копируют паттерн по всему полю зрения, чтобы модель могла «узнать» его в любом месте.
- Аугментация данных: Мы создаем тысячи вариаций (повороты, масштабирование), чтобы превратить неизвестные области пространства в знакомые. Это Люкс называет превращением проблемы экстраполяции в интерполяцию.
По словам гостя, для честной символической экстраполяции нужно знать структуру функции. Если у нас есть две точки и мы проводим через них линию, мы можем предположить, что она пойдет так же и дальше, но это лишь предположение, основанное на доменных знаниях.
🤖 Трансформеры и апозиционная логика 25:36
Разбирая архитектуру трансформеров, Люкс выдвигает гипотезу, что их мощь заключается не в перестановках, а в агрегации. Он рассматривает трансформеры как обобщение «глубоких множеств» (deep sets), которые инвариантны к перестановкам.
Ключевая идея структуры будущего, по мнению Люкса:
- Апозиционный фронтенд (Unordered processing): Сначала данные обрабатываются без учета порядка (как набор токенов или пикселей), агрегируются и кодируются в эмбеддинг.
- Позиционный бэкенд (MLP): Затем стандартный перцептрон выполняет логическую обработку на основе полученных смыслов.
Такой подход позволяет модели игнорировать порядок там, где он не важен (например, в контексте предложения), но сохранять точность обработки конкретных значений.
⚡ ReLU против «гладких» функций: конец эпохи сигмоид 40:20
Многие критики утверждают, что использование гладких функций активации (вроде сигмоид) разрушает теорию сплайнов. Однако собеседники сошлись во мнении, что в современных сетях «гладкие локти» активаций практически не используются.
- Модели работают быстрее с ReLU, потому что ландшафт потерь становится более «послушным» для оптимизации.
- Любая ненулевая вторая производная (кривизна) в активационной функции умножается и увеличивает сложность задачи оптимизации.
- Нейросети эффективно используют только линейные участки функций, нарезая пространство на «соты из сот».
🔮 Будущее без обратного распространения ошибки 46:04
В финале Томас Люкс затронул тему Forward Gradients — метода обучения без классического Backprop, который сейчас активно обсуждается в научном сообществе.
Главная проблема текущих нейросетей — коллапс главных компонент при инициализации. В момент создания сети данные, проходя через слои, быстро теряют вариативность, схлопываясь почти в одну линию. Обучение методом форвардных градиентов (или правильная инициализация) позволяет увеличить разнообразие базисных функций, что дает лучший результат даже без сложной подгонки под выходные данные.
Томас Люкс уверен, что путь к объяснимому и надежному ИИ лежит через доказательство свойств этих базисных функций и контроль за тем, как данные морфируются (изменяются) при прохождении через слои сети.