# Эндрю Ын: «Термин „глубокое обучение“ — это во многом удачный брендинг»

Источник: https://www.youtube.com/watch?v=5dWp1mw_XNk
Канал: DeepLearning.AI
Опубликовано: 25.08.2017

---

Современные нейросети добились впечатляющих успехов во многих областях, но возникает фундаментальный вопрос: почему они должны быть именно «глубокими»? Эндрю Ын (Andrew Ng), основатель DeepLearning.AI и один из самых авторитетных экспертов в области ИИ, подробно объясняет, как иерархическая структура из множества скрытых слоев позволяет компьютерам понимать мир — от распознавания лиц до человеческой речи.

## 👁️ Иерархия визуальных образов: от линий к лицам
[[JUMP:0:13]]

При построении системы распознавания или детекции лиц глубокая нейросеть выполняет последовательную декомпозицию изображения. Как утверждает Эндрю Ын, этот процесс можно представить как поэтапное усложнение визуальных функций [0:27]:

*   **Первый уровень (Детектор краев):** На входе нейросеть получает изображение лица. Первый скрытый слой работает как «детектор признаков» или «детектор краев». Если визуализировать работу первого слоя с 20 скрытыми юнитами (нейронами), можно увидеть, что каждый из них ищет на картинке края определенной ориентации — вертикальные, горизонтальные или наклонные линии [0:52].
*   **Второй уровень (Части лица):** Группируя обнаруженные края, второй слой начинает формировать более сложные структуры. Здесь отдельные нейроны специализируются на поиске конкретных частей лица: глаз, носов, ушей или подбородков [1:46].
*   **Третий уровень (Целостные образы):** Объединяя информацию о частях лица, последующие слои обучаются распознавать или определять различные типы лиц в целом [2:00].

Ын подчеркивает, что интуитивно это можно понимать так: ранние слои вычисляют простейшие функции, а более глубокие — компонуют их для обучения гораздо более сложным задачам [2:13]. Важной технической деталью является то, что детекторы краев анализируют очень маленькие области изображения, в то время как детекторы лиц могут охватывать гораздо более обширные зоны [2:26].

## 🗣️ Распознавание речи: звуковая пирамида
[[JUMP:3:05]]

Аналогичный принцип иерархического представления (композиционного представления) применим и к другим типам данных, например, к аудио. Хотя визуализировать звук сложнее, Ын описывает процесс распознавания речи следующим образом [3:18]:

1.  **Низкоуровневые признаки:** Первый уровень нейросети может обучаться детектировать базовые характеристики аудиоволны: идет ли тон вверх или вниз, является ли звук белым шумом, свистящим или имеет определенную высоту тона.
2.  **Фонемы:** Группируя эти волновые признаки, сеть учится распознавать базовые единицы звука, которые в лингвистике называются фонемами. Например, в слове «cat» (кот) сеть выделяет звуки «к», «э» и «т» [3:44].
3.  **Слова и фразы:** На следующих уровнях нейросеть объединяет фонемы в слова, а слова — в целые фразы и предложения [3:58].

Таким образом, по словам лектора, глубокая сеть способна превращать простые входные данные в удивительно сложные результаты, такие как понимание человеческого языка [4:38].

## 🧠 Биологическая аналогия и ее опасности
[[JUMP:4:39]]

В сообществе специалистов по ИИ часто проводят параллели между глубокими нейросетями и человеческим мозгом. Нейробиологи полагают, что мозг также начинает обработку визуальной информации с детектирования простых вещей, таких как края, и постепенно переходит к сложным объектам [4:52].

Однако Эндрю Ын призывает к осторожности в этом вопросе. По его мнению, аналогии между глубоким обучением и биологическим мозгом иногда могут быть «немного опасными» [5:05]. Тем не менее он признает, что в этом сравнении есть большая доля правды, и именно принципы работы человеческого зрения послужили источником вдохновения для развития некоторых аспектов глубокого обучения [5:17].

## 🔢 Математическое обоснование: теория схем
[[JUMP:5:31]]

Помимо интуитивного понимания иерархии, существует строгое математическое обоснование пользы глубоких представлений, пришедшее из теории схем. Эта теория изучает, какие типы функций можно вычислить с помощью логических вентилей (AND, OR, NOT) [5:43].

Как утверждает Эндрю Ын, существуют функции, которые можно вычислить с помощью относительно небольшой, но глубокой нейросети. Однако если попытаться вычислить ту же самую функцию с помощью «неглубокой» (shallow) сети, может потребоваться экспоненциально больше скрытых юнитов [5:56].

В качестве примера лектор приводит вычисление функции исключающего ИЛИ (XOR) или четности для входных признаков ($x_1, x_2, ... x_n$) [6:23]:

*   **Глубокий подход:** Если строить дерево XOR-операций, то глубина сети будет пропорциональна логарифму от количества входных данных ($\log N$) [7:17]. Количество необходимых вентилей (узлов) при этом будет невелико.
*   **Неглубокий подход:** Если же ограничить сеть всего одним скрытым слоем, то для вычисления четности потребуется экспоненциально большая структура. В таком случае скрытый слой должен будет содержать порядка $2^n$ (точнее $2^{n-1}$) скрытых юнитов, чтобы перечислить все возможные конфигурации входных битов [8:11].

Хотя Ын признается, что лично для него результаты теории схем менее полезны для развития интуиции, он отмечает, что на них часто ссылаются для объяснения ценности глубоких представлений [8:52].

## 🏷️ Глубокое обучение как удачный бренд
[[JUMP:9:05]]

Интересным замечанием лектора стало обсуждение самого термина «глубокое обучение» (Deep Learning). Эндрю Ын честно признает, что одной из причин популярности этого направления является удачный брендинг [9:17].

Раньше такие системы называли просто «нейронными сетями с множеством скрытых слоев». Однако фраза «глубокое обучение» звучит гораздо эффектнее и помогла захватить воображение широкой публики [9:31]. Тем не менее, Ын подчеркивает, что за этим PR-брендингом стоит реальная эффективность: глубокие сети действительно работают хорошо [9:44].

В практической работе Ын рекомендует придерживаться следующего подхода:

1.  Не впадать в крайности, настаивая на использовании десятков слоев сразу [9:44].
2.  Начинать решение новой задачи с простой логистической регрессии или сети с одним-двумя скрытыми слоями [9:57].
3.  Рассматривать количество слоев как гиперпараметр, который нужно настраивать в ходе экспериментов.

При этом он подтверждает текущий тренд: для некоторых современных приложений (например, в компьютерном зрении) использование очень глубоких сетей с десятками слоев действительно оказывается наилучшим решением [10:10].