Stanford CS221: «Искусство обучения глубоких нейронных сетей»

Stanford Online 1,5 тыс. 1 ч 11 мин 3 мин 09.03.2026
Главное

🧠 Основы нейронных сетей и глубокого обучения в Stanford CS221 0:06

Лекция №4 курса Stanford CS221, прочитанная в Стэнфордском университете (Stanford University) осенью 2025 года, посвящена переходу от линейных моделей к глубокому обучению (deep learning). Основная цель занятия — научить студентов строить нелинейные модели классификации и регрессии, используя для этого мощные инструменты автоматического дифференцирования. Автор лекции Stanford Online объясняет, как концептуально устроены современные нейронные сети и какие технические приемы позволяют успешно их обучать.

🛠 Переход на PyTorch: от «ручной» работы к стандартам индустрии 0:36

Ранее студенты строили собственные библиотеки для вычислительных графов, чтобы понять процесс обратного распространения ошибки (backpropagation) изнутри. Однако на практике для реальных задач разработчики используют PyTorch или Jax.

Ключевые концепции работы с PyTorch:

📉 Цикл обучения: от данных до оптимизации 18:02

Классический пайплайн обучения в PyTorch состоит из четырех повторяющихся шагов:

  1. Прямой проход (forward pass): Получение предсказаний (логитов) и расчет функции потерь (например, cross_entropy_loss).
  2. Зануление градиентов: В PyTorch градиенты накапливаются, поэтому их нужно принудительно обнулять перед каждым шагом.
  3. Обратный проход (backward pass): Вызов loss.backward() для вычисления градиентов по параметрам модели.
  4. Шаг оптимизатора: Метод optimizer.step() обновляет веса модели на основе накопленных градиентов.

🌀 Нелинейность: путь к выразительным моделям 26:39

Линейные модели ограничены прямыми границами принятия решений. Чтобы выйти за эти рамки, не обязательно сразу строить сложную нейросеть: иногда достаточно использовать нелинейные карты признаков (feature maps).

Однако главная цель глубокого обучения — позволить самой сети «выучить» эти признаки.

🏗 Стабилизация глубоких сетей 51:33

С увеличением глубины сети возникают проблемы взрывающихся или исчезающих градиентов.

💬 Цитаты

«Каждый раз, когда вы видите нулевой градиент, вы должны паниковать.»

Автор лекции Stanford Online 44:42

«Единица — наш друг здесь. Мы хотим держать величины близкими к единице.»

Автор лекции Stanford Online 54:01
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Логиты
Ненормализованные предсказания модели перед применением функции softmax.
ReLU
Функция активации, возвращающая 0 для отрицательных значений и x для положительных.
Residual Connection
Метод соединения слоев, при котором вход слоя добавляется к его выходу.
Стохастический градиентный спуск (SGD)
Метод обучения, при котором градиент вычисляется на случайном подмножестве данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект PyTorch Backpropagation ReLU Residual Connections Layer Normalization