Математика и практика обучения нейросетей: от теории MIT до работы GPT-4

MIT OpenCourseWare 54,6 тыс. 1 ч 18 мин 2 мин 07.01.2026
Главное

🧠 Архитектура и обучение нейронных сетей: от теории к практике 0:21

Обучение нейронной сети — это «сердце» современной работы с данными, где ключевой задачей разработчика является правильное проектирование скрытых слоев и выбор функций активации. По мнению лектора MIT OpenCourseWare, главный принцип здесь — начинать с простейшей архитектуры и усложнять её только при необходимости. Лекция посвящена практическому разбору обучения на примере структурированных данных: прогнозировании сердечных заболеваний на основе показателей пациентов Cleveland Clinic.

🛠 Проектирование нейронной сети в Keras 5:33

Создание нейросети сводится к выбору количества скрытых слоев и нейронов в каждом из них. Для простых задач часто достаточно одного скрытого слоя.

Код на Keras позволяет описать эту структуру всего в несколько строк, абстрагируясь от сложной математики. Лектор подчеркивает, что модель — это объект, объединяющий входной слой, последовательность скрытых слоев и выход.

📉 Оптимизация: функции потерь и градиентный спуск 19:58

Обучение — это поиск таких коэффициентов (весов и смещений), при которых предсказания модели максимально близки к реальности.

🚀 Эффективность обучения: Backprop и SGD 57:04

Для работы с миллиардами параметров (как в GPT-4) требуются крайне эффективные методы вычислений.

💬 Цитаты

«Никогда не используйте слово backpropagation, только backprop. Вы станете крутым в глазах сообщества deep learning.»

«Вся тяжелая артиллерия оптимизации, придуманная десятилетия назад, по сути не используется. Этот алгоритм (градиентный спуск) — вот что используется.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
ReLU
Функция активации, возвращающая 0 для отрицательных входных данных и значение входа для положительных, популярная благодаря простоте вычисления градиента.
One-hot encoding
Метод кодирования категориальных данных в виде векторов из 0 и 1.
Saddle point
Точка в пространстве функции, где градиент равен нулю, но которая не является минимумом или максимумом (седловая точка).
Mini-batch
Небольшая случайная выборка данных, используемая для одного шага обучения в стохастическом градиентном спуске.
📊 Цифры
🗓 Хронология
  1. 1847 Огюстен Луи Коши изобрел метод градиентного спуска.
  2. 2012 Модель AlexNet выиграла конкурс по компьютерному зрению, ознаменовав прорыв GPU в Deep Learning.
⚖️ Другая сторона
Искусственный интеллект TensorFlow Keras Gradient Descent Backprop SGD