Стэнфордский курс CS221: Основы тензорных вычислений и обучения моделей

Stanford Online 4,4 тыс. 1 ч 12 мин 2 мин 09.03.2026
Главное

Обучение нейросетей: от тензоров и обратного распространения до линейной регрессии 0:05

В лекции курса Stanford CS221 преподаватель Стэнфордского университета разбирает фундаментальные строительные блоки современного машинного обучения: тензоры, алгоритм обратного распространения ошибки (backpropagation) и классическую задачу линейной регрессии. Основной упор сделан на механику вычислений и переход от ручного дифференцирования к использованию вычислительных графов.

🧠 Тензоры и библиотека Einops 0:05

В основе всех вычислений лежат тензоры, которые можно считать «атомами» машинного обучения.

📉 Обратное распространение ошибки и графы вычислений 17:07

Для обучения моделей необходимо оптимизировать параметры, минимизируя функцию потерь. Градиент показывает направление, в котором функция возрастает быстрее всего, поэтому для минимизации нужно двигаться в противоположную сторону.

Механика вычислений

Вместо ручного вычисления производных для каждой сложной функции используется автоматическое дифференцирование (autodiff) через построение вычислительного графа.

  1. Прямой проход (Forward pass): вычисление значений всех узлов от входных данных до результата (скаляра).
  2. Топологическая сортировка: определение порядка обработки узлов графа.
  3. Обратный проход (Backward pass): проход от корня к листьям, где backward каждого узла передает градиент (производную по отношению к результату) его зависимостям, используя цепное правило.

По мнению преподавателя, понимание работы графа крайне важно, так как, несмотря на наличие библиотек вроде PyTorch или JAX, глубокое знание «кухни» алгоритма дает лучшую интуицию при проектировании архитектур.

📊 Линейная регрессия как задача обучения 56:32

Процесс машинного обучения — это не просто написание кода, а поиск оптимального предиктора в заданном пространстве.

Три столпа машинного обучения

  1. Гипотетический класс (Hypothesis class): выбор архитектуры модели (множества возможных функций) и ограничение пространства параметров.
  2. Функция потерь (Loss function): математическая мера того, насколько плохо модель предсказывает данные (например, среднеквадратичная ошибка, где остаток — это расстояние от прогноза до целевого значения).
  3. Оптимизация (Optimization): нахождение параметров, минимизирующих потери.

Градиентный спуск

Это основной метод оптимизации, где параметры обновляются итеративно:

Хотя градиентный спуск гарантированно работает для выпуклых функций, в глубоком обучении функции чаще всего не являются таковыми, однако метод показывает высокую эффективность на практике.

💬 Цитаты

«Тензоры — это атомы современного машинного обучения.»

Преподаватель 00:05

«Понимание графов вычислений помогает углубить интуицию в исчислении и цепном правиле.»

Преподаватель 54:08
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Тензор
Многомерный массив чисел, являющийся основной структурой данных в современном ML.
Backpropagation
Алгоритм вычисления градиентов для обучения нейронных сетей с помощью цепного правила.
Hypothesis class
Набор всех возможных функций (архитектур), из которых алгоритм обучения выбирает лучшую.
Градиент
Вектор частных производных, указывающий направление максимального роста функции.
Топологическая сортировка
Упорядочивание узлов графа так, чтобы для любого ребра узел-источник шел раньше узла-приемника.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект CS221 backpropagation einsum Stanford Online градиентный спуск