Джош Стармер: как работают нейронные сети на самом деле

StatQuest with Josh Starmer 1,3 млн 18 мин 2 мин 31.08.2020
Главное

Понимание «черного ящика»: как работают нейронные сети 0:00

Нейронные сети часто воспринимаются как нечто сложное и загадочное — «черный ящик», внутренняя работа которого скрыта от пользователя. Ведущий канала StatQuest Джош Стармер предлагает отойти от перегруженных математической нотацией графиков и разобрать нейронные сети на простые составляющие, показав, что на самом деле они представляют собой эффективные механизмы для аппроксимации данных с помощью «извилистых» кривых.

Что такое нейронная сеть и зачем она нужна 3:34

Основная задача нейронной сети — прогнозирование на основе данных, которые нельзя описать простой прямой линией. Если при тестировании лекарства мы видим, что низкие и высокие дозы неэффективны (значение 0), а средние — эффективны (значение 1), обычная линейная модель не справится с предсказанием. Нейронная сеть решает эту проблему, создавая сложную кривую — «зеленую извилину» (green squiggle), которая точно проходит через точки данных.

Базовая архитектура 3:49

Любая, даже самая сложная нейронная сеть, состоит из одних и тех же строительных блоков:

Активационные функции 5:34

Внутри узлов расположены изогнутые линии, называемые активационными функциями. Они позволяют сети создавать сложные формы. Стармер отмечает, что хотя в учебниках часто используют сигмоиду (sigmoid), на практике чаще применяют:

Как работает «машина для рисования извилин» 7:47

Процесс создания предсказания выглядит как последовательное преобразование входных данных через скрытый слой.

  1. Вход и умножение: Входное значение (дозировка) умножается на вес и к нему прибавляется смещение.
  2. Активация: Результат передается в активационную функцию (например, Softplus), которая превращает его в новую кривую.
  3. Масштабирование: Каждая кривая в скрытом слое масштабируется своим весом — это позволяет «срезать», «переворачивать» и «растягивать» базовые функции.
  4. Сложение: Все преобразованные кривые складываются вместе, образуя итоговую «зеленую извилину».
  5. Финальный сдвиг: Корректировка по оси Y позволяет «посадить» кривую точно на данные.

В итоге, чтобы узнать эффективность новой дозы, достаточно подставить число в сеть и получить координату на итоговой кривой. Если результат близок к 1, прогноз — эффективно, если к 0 — нет.

Почему это называется «нейронной сетью»? 16:44

Название возникло в 1940-х и 50-х годах из-за аналогии между узлами и биологическими нейронами, а соединениями и синапсами. Однако Стармер считает, что более точным термином было бы «машина для подгонки сложных извилин» (big fancy squiggle fitting machine), так как именно это они и делают в математическом смысле.

Теоретически, добавляя больше скрытых слоев и узлов, нейронная сеть способна создать «зеленую извилину», подходящую практически к любому, даже самому сложному набору данных.

💬 Цитаты

«Нейронные сети кажутся такими сложными, но это не так.»

Джош Стармер 0:00

«Я думаю, их следует называть «большими причудливыми машинами для подгонки извилин», потому что именно это они и делают.»

Джош Стармер 16:58
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Back propagation
Метод обучения нейронной сети, при котором параметры настраиваются для минимизации ошибки.
Activation function
Математическая функция, которая определяет выход узла нейронной сети и вносит нелинейность.
Weights
Параметры соединения, на которые умножаются данные для изменения их силы или влияния.
Biases
Параметры, которые прибавляются к данным в узлах для их вертикального смещения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Neural Networks Josh Starmer Back propagation Activation functions