Эндрю Ын о производных: как наклон функции меняется в разных точках

В образовательном видео от DeepLearning.AI Эндрю Ын продолжает погружение в мир математического анализа, необходимого для понимания работы нейронных сетей. На конкретных примерах функций — от квадратичных до логарифмических — он демонстрирует, как производная определяет наклон кривой и почему в нелинейных функциях этот показатель меняется в зависимости от выбранной точки.

📈 Геометрия наклона: пример с квадратичной функцией 0:00

В отличие от линейных функций, где наклон остается неизменным на всем протяжении графика, в более сложных функциях, таких как $f(a) = a^2$, производная в разных точках будет разной . Эндрю Ын предлагает рассмотреть это на конкретном примере:

Точка $a = 2$:
- Значение функции $f(a) = 2^2 = 4$ .
- Если мы слегка увеличим («подтолкнем») $a$ до $2,001$, значение $f(a)$ станет примерно $4,004$ (точнее — $4,004001$, но для наглядности Ын использует округление) .
- Таким образом, при изменении $a$ на $0,001$, значение функции выросло в 4 раза сильнее — на $0,004$.

Это означает, что в точке $a = 2$ производная функции $f(a) = a^2$ равна 4 . Автор поясняет это через «маленький треугольник» на графике: отношение высоты к ширине этого треугольника и есть наклон, который в данном случае равен четырем .

🔄 Почему наклон меняется в разных точках 1:41

Основная особенность нелинейных функций заключается в том, что их крутизна зависит от текущего значения аргумента. Эндрю Ын сравнивает поведение функции $f(a) = a^2$ в разных точках :

В точке $a = 2$: производная равна 4.
В точке $a = 5$:
- Значение $f(a) = 25$ .
- При небольшом приращении $a$ до $5,001$, значение функции увеличивается примерно до $25,010$ .
- Здесь функция выросла в 10 раз сильнее, чем входной параметр. Следовательно, производная в этой точке равна 10 .

Визуально это подтверждается тем, что наклон касательной (гипотенузы воображаемого треугольника) становится гораздо круче при движении вправо по оси $a$ .

📚 Формулы из учебников и «бесконечно малые» величины 3:01

Эндрю Ын отмечает, что для поиска производных не обязательно каждый раз проводить расчеты с приращениями — достаточно заглянуть в справочник по математическому анализу или в Википедию .

Согласно стандартной формуле, производная функции $a^2$ равна $2a$ .
Это полностью совпадает с вычислениями: при $a = 2$ наклон равен $2 \times 2 = 4$, а при $a = 5$ он равен $2 \times 5 = 10$ .

Автор также разъясняет причину небольшой погрешности в своих расчетах. Когда мы берем приращение $0,001$, результат получается «примерным» (например, $4,004001$ вместо ровных $4,004$) . Ын подчеркивает: математическое определение производной строится на бесконечно малых приращениях (infinitesimal nudges). Если бы мы использовали бесконечно малое число вместо $0,001$, лишние знаки после запятой исчезли бы, и мы получили бы точное значение производной .

🧪 Разбор других функций: куб и логарифм 5:16

Для закрепления материала лектор приводит еще два примера функций, которые часто встречаются в алгоритмах машинного обучения.

1. Кубическая функция $f(a) = a^3$

Справочная формула производной: $3a^2$ .
Проверка в точке $a = 2$:
- $f(a) = 2^3 = 8$.
- Если увеличить $a$ на $0,001$ (до $2,001$), значение функции станет примерно $8,012$ .
- Расчет по формуле подтверждает этот рост: $3 \times 2^2 = 3 \times 4 = 12$ . Функция действительно выросла в 12 раз сильнее аргумента.

2. Логарифмическая функция $f(a) = \log(a)$

Эндрю Ын использует обозначение $\log(a)$, подразумевая натуральный логарифм ($\ln a$) .
Справочная формула производной: $1/a$ .
Пример в точке $a = 2$:
- При увеличении $a$ на $0,001$ ожидается рост функции на $1/2$ от этого значения, то есть на $0,0005$ .
- Практическая проверка на калькуляторе показывает: $f(2) \approx 0,69315$, а $f(2,001) \approx 0,69365$. Разница составляет ровно $0,0005$ .

📝 Ключевые выводы занятия 9:31

В завершение урока Эндрю Ын выделяет два главных тезиса, которые слушатели должны усвоить перед переходом к теме вычислительных графов:

Производная — это наклон: Она показывает, как меняется функция в конкретной точке. У прямых линий наклон везде одинаков, у кривых — меняется .
Использование готовых формул: Для любой стандартной функции (квадрат, куб, логарифм) существует готовое аналитическое решение для поиска производной, которое можно найти в учебниках .

Следующим шагом в курсе станет изучение вычислительных графов (computation graphs), которые позволяют вычислять производные для гораздо более сложных функций, лежащих в основе глубоких нейронных сетей .