Сара Бери об архитектурах нейросетей: От MLP до Neural Fields

Основы машинного обучения: Архитектуры, сетки и свертки 0:13

Современное машинное обучение требует выхода за рамки простых архитектур, таких как многослойный перцептрон (MLP), для эффективного кодирования структурных данных. Профессор Сара Бери из MIT в своей лекции подчеркивает, что выбор правильной архитектуры модели — это по сути способ внедрения индуктивного смещения (inductive bias), позволяющий алгоритму делать обоснованные предположения о данных еще до начала обучения. Чем сильнее априорные знания об архитектуре, тем меньше данных требуется модели для достижения качественного результата.

Почему многослойный перцептрон — не панацея 1:32

Многослойный перцептрон (MLP) долгое время был «строительным блоком» глубокого обучения благодаря своей универсальности как аппроксиматора. Однако у него есть существенные недостатки, ограничивающие его применение в сложных задачах:

Слабое индуктивное смещение: Модель практически не имеет структуры, что делает её «голодной» до данных.
Высокая вычислительная стоимость: При работе с изображениями высокой четкости, которые необходимо «выпрямлять» в вектор, количество операций умножения становится критически большим.
Проблема генерализации: Без специфической структуры модели крайне сложно обобщать знания вне распределения обучающей выборки.

С целью оптимизации обучения исследователи используют специализированные архитектуры, такие как SIREN (на основе синусоидальных активаций), которые гораздо быстрее сходятся при аппроксимации изображений, чем стандартные ReLU-сети.

Сверточные нейронные сети (CNN): Локальность и инвариантность 13:06

Для обработки изображений, где семантические сигналы часто локально ограничены, наиболее эффективным инструментом стали сверточные нейронные сети (CNN). Вместо классификации всего изображения целиком, CNN используют подход «скользящего окна» (патчей), что позволяет модели фокусироваться на локальном контексте.

Ключевые преимущества CNN:

Эквивариантность к сдвигам: Модели «все равно», где находится объект — в центре или в углу. Свертка инвариантна к трансляции данных.
Параметрическая эффективность: Использование одинаковых весов (ядер свертки) по всему изображению резко сокращает количество параметров по сравнению с полносвязными слоями.
Масштабируемость: Сверточные слои можно применять к изображениям любого размера, так как они работают с локальными патчами.

Профессор Бери отмечает, что свертка в нейросетях фактически является разреженной матрицей особой структуры (форма матрицы Тёплица), что обеспечивает «параллелизм вычислений».

Пирамиды, пулинг и receptive field 31:57

По мере углубления нейросети увеличивается receptive field (поле зрения) — область исходного входного сигнала, влияющая на конкретный выходной нейрон. Увеличение глубины сети позволяет модели видеть более крупные и сложные структуры.

Важным инструментом для управления размерностью и повышения устойчивости модели является пулинг (pooling):

Max Pooling: Выбор максимального значения в окне, что добавляет модели инвариантности к небольшим смещениям.
Mean Pooling: Усреднение значений, полезное для более плавного представления признаков.
Strided Operations: Комбинация свертки и даунсэмплинга (понижения разрешения) через изменение шага (stride) фильтра, что позволяет эффективно управлять receptive field и вычислительной нагрузкой.

Эволюция архитектур: От U-Net к NeRF 1:01:03

Современный стек архитектур включает решения для самых разных задач, где критически важны сохранение деталей и семантическая глубина:

Encoder-Decoder: Позволяет сжимать информацию в узкое место (bottleneck) и восстанавливать её.
U-Net: Использует skip-connections (пропускные связи), которые позволяют объединять «сырые» высокоточные детали из ранних слоев с семантически глубокими данными, что делает архитектуру стандартом в сегментации изображений.
ResNet: Вводит идентичные пропускные связи в каждом слое, позволяя сети обучаться оптимальной глубине «автоматически».
Neural Fields (NeRF): Представляют собой функциональное отображение координат в цвет и плотность, что позволяет генерировать новые ракурсы сцены. Профессор Бери подчеркивает, что это передовой рубеж, хотя модели типа NeRF требуют значительных объемов данных и плохо работают с движущимися объектами.