# Эндрю Ын о производных: как наклон функции меняется в разных точках

Источник: https://www.youtube.com/watch?v=5H7M5Vd3-pk
Канал: DeepLearning.AI
Опубликовано: 25.08.2017

---

В образовательном видео от DeepLearning.AI Эндрю Ын продолжает погружение в мир математического анализа, необходимого для понимания работы нейронных сетей. На конкретных примерах функций — от квадратичных до логарифмических — он демонстрирует, как производная определяет наклон кривой и почему в нелинейных функциях этот показатель меняется в зависимости от выбранной точки.

## 📈 Геометрия наклона: пример с квадратичной функцией
[[JUMP:0:00]]

В отличие от линейных функций, где наклон остается неизменным на всем протяжении графика, в более сложных функциях, таких как $f(a) = a^2$, производная в разных точках будет разной [0:00]. Эндрю Ын предлагает рассмотреть это на конкретном примере:

1.  **Точка $a = 2$:**
    *   Значение функции $f(a) = 2^2 = 4$ [0:12].
    *   Если мы слегка увеличим («подтолкнем») $a$ до $2,001$, значение $f(a)$ станет примерно $4,004$ (точнее — $4,004001$, но для наглядности Ын использует округление) [0:25].
    *   Таким образом, при изменении $a$ на $0,001$, значение функции выросло в 4 раза сильнее — на $0,004$.

Это означает, что в точке $a = 2$ производная функции $f(a) = a^2$ равна 4 [1:23]. Автор поясняет это через «маленький треугольник» на графике: отношение высоты к ширине этого треугольника и есть наклон, который в данном случае равен четырем [1:06].

## 🔄 Почему наклон меняется в разных точках
[[JUMP:1:41]]

Основная особенность нелинейных функций заключается в том, что их крутизна зависит от текущего значения аргумента. Эндрю Ын сравнивает поведение функции $f(a) = a^2$ в разных точках [1:48]:

*   **В точке $a = 2$:** производная равна 4.
*   **В точке $a = 5$:**
    *   Значение $f(a) = 25$ [2:03].
    *   При небольшом приращении $a$ до $5,001$, значение функции увеличивается примерно до $25,010$ [2:18].
    *   Здесь функция выросла в 10 раз сильнее, чем входной параметр. Следовательно, производная в этой точке равна 10 [2:31].

Визуально это подтверждается тем, что наклон касательной (гипотенузы воображаемого треугольника) становится гораздо круче при движении вправо по оси $a$ [2:44].

## 📚 Формулы из учебников и «бесконечно малые» величины
[[JUMP:3:01]]

Эндрю Ын отмечает, что для поиска производных не обязательно каждый раз проводить расчеты с приращениями — достаточно заглянуть в справочник по математическому анализу или в Википедию [3:01].

*   Согласно стандартной формуле, производная функции $a^2$ равна $2a$ [3:09].
*   Это полностью совпадает с вычислениями: при $a = 2$ наклон равен $2 \times 2 = 4$, а при $a = 5$ он равен $2 \times 5 = 10$ [3:34].

Автор также разъясняет причину небольшой погрешности в своих расчетах. Когда мы берем приращение $0,001$, результат получается «примерным» (например, $4,004001$ вместо ровных $4,004$) [4:15]. Ын подчеркивает: математическое определение производной строится на **бесконечно малых** приращениях (infinitesimal nudges). Если бы мы использовали бесконечно малое число вместо $0,001$, лишние знаки после запятой исчезли бы, и мы получили бы точное значение производной [4:43].

## 🧪 Разбор других функций: куб и логарифм
[[JUMP:5:16]]

Для закрепления материала лектор приводит еще два примера функций, которые часто встречаются в алгоритмах машинного обучения.

### 1. Кубическая функция $f(a) = a^3$ [5:58]

*   Справочная формула производной: $3a^2$ [6:04].
*   Проверка в точке $a = 2$:
    *   $f(a) = 2^3 = 8$.
    *   Если увеличить $a$ на $0,001$ (до $2,001$), значение функции станет примерно $8,012$ [6:30].
    *   Расчет по формуле подтверждает этот рост: $3 \times 2^2 = 3 \times 4 = 12$ [6:44]. Функция действительно выросла в 12 раз сильнее аргумента.

### 2. Логарифмическая функция $f(a) = \log(a)$ [7:09]

*   Эндрю Ын использует обозначение $\log(a)$, подразумевая натуральный логарифм ($\ln a$) [7:21].
*   Справочная формула производной: $1/a$ [7:21].
*   Пример в точке $a = 2$:
    *   При увеличении $a$ на $0,001$ ожидается рост функции на $1/2$ от этого значения, то есть на $0,0005$ [7:51].
    *   Практическая проверка на калькуляторе показывает: $f(2) \approx 0,69315$, а $f(2,001) \approx 0,69365$. Разница составляет ровно $0,0005$ [8:26].

## 📝 Ключевые выводы занятия
[[JUMP:9:31]]

В завершение урока Эндрю Ын выделяет два главных тезиса, которые слушатели должны усвоить перед переходом к теме вычислительных графов:

*   **Производная — это наклон:** Она показывает, как меняется функция в конкретной точке. У прямых линий наклон везде одинаков, у кривых — меняется [9:34].
*   **Использование готовых формул:** Для любой стандартной функции (квадрат, куб, логарифм) существует готовое аналитическое решение для поиска производной, которое можно найти в учебниках [10:04].

Следующим шагом в курсе станет изучение **вычислительных графов (computation graphs)**, которые позволяют вычислять производные для гораздо более сложных функций, лежащих в основе глубоких нейронных сетей [10:26].