Эндрю Ын о производных: как наклон функции меняется в разных точках

DeepLearning.AI 86,9 тыс. 10 мин 3 мин 25.08.2017
Главное

В образовательном видео от DeepLearning.AI Эндрю Ын продолжает погружение в мир математического анализа, необходимого для понимания работы нейронных сетей. На конкретных примерах функций — от квадратичных до логарифмических — он демонстрирует, как производная определяет наклон кривой и почему в нелинейных функциях этот показатель меняется в зависимости от выбранной точки.

📈 Геометрия наклона: пример с квадратичной функцией 0:00

В отличие от линейных функций, где наклон остается неизменным на всем протяжении графика, в более сложных функциях, таких как $f(a) = a^2$, производная в разных точках будет разной . Эндрю Ын предлагает рассмотреть это на конкретном примере:

  1. Точка $a = 2$:
    • Значение функции $f(a) = 2^2 = 4$ .
    • Если мы слегка увеличим («подтолкнем») $a$ до $2,001$, значение $f(a)$ станет примерно $4,004$ (точнее — $4,004001$, но для наглядности Ын использует округление) .
    • Таким образом, при изменении $a$ на $0,001$, значение функции выросло в 4 раза сильнее — на $0,004$.

Это означает, что в точке $a = 2$ производная функции $f(a) = a^2$ равна 4 . Автор поясняет это через «маленький треугольник» на графике: отношение высоты к ширине этого треугольника и есть наклон, который в данном случае равен четырем .

🔄 Почему наклон меняется в разных точках 1:41

Основная особенность нелинейных функций заключается в том, что их крутизна зависит от текущего значения аргумента. Эндрю Ын сравнивает поведение функции $f(a) = a^2$ в разных точках :

Визуально это подтверждается тем, что наклон касательной (гипотенузы воображаемого треугольника) становится гораздо круче при движении вправо по оси $a$ .

📚 Формулы из учебников и «бесконечно малые» величины 3:01

Эндрю Ын отмечает, что для поиска производных не обязательно каждый раз проводить расчеты с приращениями — достаточно заглянуть в справочник по математическому анализу или в Википедию .

Автор также разъясняет причину небольшой погрешности в своих расчетах. Когда мы берем приращение $0,001$, результат получается «примерным» (например, $4,004001$ вместо ровных $4,004$) . Ын подчеркивает: математическое определение производной строится на бесконечно малых приращениях (infinitesimal nudges). Если бы мы использовали бесконечно малое число вместо $0,001$, лишние знаки после запятой исчезли бы, и мы получили бы точное значение производной .

🧪 Разбор других функций: куб и логарифм 5:16

Для закрепления материала лектор приводит еще два примера функций, которые часто встречаются в алгоритмах машинного обучения.

1. Кубическая функция $f(a) = a^3$

2. Логарифмическая функция $f(a) = \log(a)$

📝 Ключевые выводы занятия 9:31

В завершение урока Эндрю Ын выделяет два главных тезиса, которые слушатели должны усвоить перед переходом к теме вычислительных графов:

Следующим шагом в курсе станет изучение вычислительных графов (computation graphs), которые позволяют вычислять производные для гораздо более сложных функций, лежащих в основе глубоких нейронных сетей .

💬 Цитаты

«Производная функции просто означает наклон этой функции.»

«Если вы хотите найти производную функции, вы можете просто открыть учебник по матанализу или Википедию.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Производная (Derivative)
Скорость изменения функции в данной точке, геометрически представляющая собой наклон касательной.
Наклон (Slope)
Отношение изменения значения функции (по вертикали) к изменению аргумента (по горизонтали).
Бесконечно малое приращение (Infinitesimal)
Величина, стремящаяся к нулю, используемая в математическом анализе для определения точного значения производной.
Вычислительный граф (Computation graph)
Визуальное представление последовательности математических операций для эффективного вычисления производных в нейросетях.
📊 Цифры
⚖️ Другая сторона
Образование DeepLearning.AI производная Эндрю Ын математический анализ нейронные сети