В образовательном видео от DeepLearning.AI Эндрю Ын продолжает погружение в мир математического анализа, необходимого для понимания работы нейронных сетей. На конкретных примерах функций — от квадратичных до логарифмических — он демонстрирует, как производная определяет наклон кривой и почему в нелинейных функциях этот показатель меняется в зависимости от выбранной точки.
📈 Геометрия наклона: пример с квадратичной функцией 0:00
В отличие от линейных функций, где наклон остается неизменным на всем протяжении графика, в более сложных функциях, таких как $f(a) = a^2$, производная в разных точках будет разной . Эндрю Ын предлагает рассмотреть это на конкретном примере:
- Точка $a = 2$:
- Значение функции $f(a) = 2^2 = 4$ .
- Если мы слегка увеличим («подтолкнем») $a$ до $2,001$, значение $f(a)$ станет примерно $4,004$ (точнее — $4,004001$, но для наглядности Ын использует округление) .
- Таким образом, при изменении $a$ на $0,001$, значение функции выросло в 4 раза сильнее — на $0,004$.
Это означает, что в точке $a = 2$ производная функции $f(a) = a^2$ равна 4 . Автор поясняет это через «маленький треугольник» на графике: отношение высоты к ширине этого треугольника и есть наклон, который в данном случае равен четырем .
🔄 Почему наклон меняется в разных точках 1:41
Основная особенность нелинейных функций заключается в том, что их крутизна зависит от текущего значения аргумента. Эндрю Ын сравнивает поведение функции $f(a) = a^2$ в разных точках :
- В точке $a = 2$: производная равна 4.
- В точке $a = 5$:
Визуально это подтверждается тем, что наклон касательной (гипотенузы воображаемого треугольника) становится гораздо круче при движении вправо по оси $a$ .
📚 Формулы из учебников и «бесконечно малые» величины 3:01
Эндрю Ын отмечает, что для поиска производных не обязательно каждый раз проводить расчеты с приращениями — достаточно заглянуть в справочник по математическому анализу или в Википедию .
- Согласно стандартной формуле, производная функции $a^2$ равна $2a$ .
- Это полностью совпадает с вычислениями: при $a = 2$ наклон равен $2 \times 2 = 4$, а при $a = 5$ он равен $2 \times 5 = 10$ .
Автор также разъясняет причину небольшой погрешности в своих расчетах. Когда мы берем приращение $0,001$, результат получается «примерным» (например, $4,004001$ вместо ровных $4,004$) . Ын подчеркивает: математическое определение производной строится на бесконечно малых приращениях (infinitesimal nudges). Если бы мы использовали бесконечно малое число вместо $0,001$, лишние знаки после запятой исчезли бы, и мы получили бы точное значение производной .
🧪 Разбор других функций: куб и логарифм 5:16
Для закрепления материала лектор приводит еще два примера функций, которые часто встречаются в алгоритмах машинного обучения.
1. Кубическая функция $f(a) = a^3$
2. Логарифмическая функция $f(a) = \log(a)$
- Эндрю Ын использует обозначение $\log(a)$, подразумевая натуральный логарифм ($\ln a$) .
- Справочная формула производной: $1/a$ .
- Пример в точке $a = 2$:
📝 Ключевые выводы занятия 9:31
В завершение урока Эндрю Ын выделяет два главных тезиса, которые слушатели должны усвоить перед переходом к теме вычислительных графов:
- Производная — это наклон: Она показывает, как меняется функция в конкретной точке. У прямых линий наклон везде одинаков, у кривых — меняется .
- Использование готовых формул: Для любой стандартной функции (квадрат, куб, логарифм) существует готовое аналитическое решение для поиска производной, которое можно найти в учебниках .
Следующим шагом в курсе станет изучение вычислительных графов (computation graphs), которые позволяют вычислять производные для гораздо более сложных функций, лежащих в основе глубоких нейронных сетей .