Сара Бери об архитектурах нейросетей: От MLP до Neural Fields

MIT OpenCourseWare 6 тыс. 1 ч 23 мин 3 мин 11.02.2026
Главное

Основы машинного обучения: Архитектуры, сетки и свертки 0:13

Современное машинное обучение требует выхода за рамки простых архитектур, таких как многослойный перцептрон (MLP), для эффективного кодирования структурных данных. Профессор Сара Бери из MIT в своей лекции подчеркивает, что выбор правильной архитектуры модели — это по сути способ внедрения индуктивного смещения (inductive bias), позволяющий алгоритму делать обоснованные предположения о данных еще до начала обучения. Чем сильнее априорные знания об архитектуре, тем меньше данных требуется модели для достижения качественного результата.

Почему многослойный перцептрон — не панацея 1:32

Многослойный перцептрон (MLP) долгое время был «строительным блоком» глубокого обучения благодаря своей универсальности как аппроксиматора. Однако у него есть существенные недостатки, ограничивающие его применение в сложных задачах:

С целью оптимизации обучения исследователи используют специализированные архитектуры, такие как SIREN (на основе синусоидальных активаций), которые гораздо быстрее сходятся при аппроксимации изображений, чем стандартные ReLU-сети.

Сверточные нейронные сети (CNN): Локальность и инвариантность 13:06

Для обработки изображений, где семантические сигналы часто локально ограничены, наиболее эффективным инструментом стали сверточные нейронные сети (CNN). Вместо классификации всего изображения целиком, CNN используют подход «скользящего окна» (патчей), что позволяет модели фокусироваться на локальном контексте.

Ключевые преимущества CNN:

Профессор Бери отмечает, что свертка в нейросетях фактически является разреженной матрицей особой структуры (форма матрицы Тёплица), что обеспечивает «параллелизм вычислений».

Пирамиды, пулинг и receptive field 31:57

По мере углубления нейросети увеличивается receptive field (поле зрения) — область исходного входного сигнала, влияющая на конкретный выходной нейрон. Увеличение глубины сети позволяет модели видеть более крупные и сложные структуры.

Важным инструментом для управления размерностью и повышения устойчивости модели является пулинг (pooling):

  1. Max Pooling: Выбор максимального значения в окне, что добавляет модели инвариантности к небольшим смещениям.
  2. Mean Pooling: Усреднение значений, полезное для более плавного представления признаков.
  3. Strided Operations: Комбинация свертки и даунсэмплинга (понижения разрешения) через изменение шага (stride) фильтра, что позволяет эффективно управлять receptive field и вычислительной нагрузкой.

Эволюция архитектур: От U-Net к NeRF 1:01:03

Современный стек архитектур включает решения для самых разных задач, где критически важны сохранение деталей и семантическая глубина:

💬 Цитаты

«Лучшая архитектура — та, что может представить истинную функцию данных и при этом является минимальной.»

Сара Бери 09:58

«Мы перешли от ручного проектирования фильтров к их обучению end-to-end, что стало эмоциональной катастрофой для многих исследователей.»

Сара Бери 55:48
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Inductive bias
Набор предположений (структура архитектуры), которые модель делает о данных для достижения лучшей генерализации.
Receptive field
Область входного изображения, которая влияет на значение конкретного нейрона в более глубоком слое сети.
Semantic segmentation
Задача классификации каждого отдельного пикселя изображения по заданным категориям.
Equivariance
Свойство модели, при котором преобразование входа приводит к соответствующему преобразованию выхода.
Skip-connections
Связи в нейросети, которые передают информацию из ранних слоев в более поздние, минуя промежуточные вычисления.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Convolutional Neural Networks U-Net ResNet NeRF Inductive Bias