Эндрю Ын: «Почему нейросети взлетели именно сейчас?»

В этом материале Эндрю Ын, основатель DeepLearning.AI и один из самых влиятельных экспертов в области искусственного интеллекта, объясняет, почему глубокое обучение (Deep Learning) стало доминирующей технологией именно сейчас, хотя его базовые идеи существовали десятилетиями. Он выделяет ключевые факторы успеха — от взрывного роста объемов данных до алгоритмических инноваций, таких как функция активации ReLU.

📈 Главный график глубокого обучения: данные против производительности 0:00

Многие задаются вопросом, почему идеи нейронных сетей, известные еще с прошлого века, «выстрелили» только в последние годы. По мнению Эндрю Ына, ответ кроется в масштабируемости . Чтобы наглядно объяснить это, он предлагает рассмотреть график зависимости производительности алгоритма от объема имеющихся данных.

Традиционные алгоритмы машинного обучения, такие как метод опорных векторов (SVM) или логистическая регрессия, ведут себя специфическим образом:

На малых объемах данных их эффективность растет .
Однако при достижении определенного порога их производительность выходит на плато .
Даже если вы добавите в систему в десять раз больше данных, качество классификации спама или предсказания кликов практически не улучшится.

Причина в том, что старые алгоритмы просто не знали, что делать с огромными массивами информации . В то же время за последние 10 лет общество прошло через тотальную цифровизацию. Активность в вебе, мобильных приложениях, использование датчиков и интернета вещей (IoT) привели к накоплению объемов данных, которые традиционные методы уже не могут эффективно обрабатывать .

🏗️ Масштаб как двигатель прогресса 2:26

В отличие от классических методов, нейронные сети демонстрируют совершенно иную динамику. Эндрю Ын подчеркивает, что результат напрямую зависит от размера сети :

Малые нейросети показывают результат чуть лучше традиционных методов.
Средние нейросети справляются еще эффективнее.
Огромные нейросети (Very large neural nets) продолжают улучшать свои показатели по мере добавления данных, не достигая видимого плато .

По словам Ына, современный прогресс Deep Learning держится на «двух китах» масштаба: размере самой нейронной сети (количестве параметров, связей и скрытых слоев) и объеме данных . Сегодня самый надежный способ улучшить нейросеть — это либо увеличить её архитектуру, либо «скормить» ей больше информации .

🧪 Важность размеченных данных и ручной инженерии 3:48

Для точности Эндрю Ын вводит техническое уточнение: на горизонтальной оси графика находится количество не просто данных, а «размеченных данных» (labeled data) . Это обучающие примеры, где для каждого входа $x$ известен правильный ответ $y$. Для обозначения размера обучающей выборки в курсе используется строчная буква $m$ .

Интересно наблюдение Ына относительно зоны «малых данных» (левая часть графика):

В этой области порядок эффективности алгоритмов четко не определен .
Успех здесь часто зависит от мастерства инженера в «ручном проектировании признаков» (hand engineering features) .
Вполне возможно, что хорошо настроенный SVM на маленьком наборе данных победит огромную нейросеть .

Преимущество глубокого обучения становится неоспоримым только в режиме Big Data, когда показатель $m$ становится очень высоким .

⚡ Алгоритмические инновации: от сигмоиды к ReLU 5:32

Хотя масштаб данных и вычислений (на CPU и GPU) сыграл решающую роль на старте, в последние годы на первый план вышли алгоритмические инновации . По мнению Ына, многие из них были направлены на то, чтобы заставить нейросети работать быстрее.

В качестве примера он приводит переход от сигмоидной функции активации к ReLU (Rectified Linear Unit) . Проблема сигмоиды заключается в том, что по краям функции её наклон (градиент) близок к нулю . Из-за этого при использовании градиентного спуска параметры обновляются крайне медленно, и обучение затягивается.

ReLU решает эту проблему:

Для всех положительных значений на входе градиент равен единице .
Это позволяет градиентному спуску работать значительно быстрее, не «затухая» в процессе вычислений .

Такое, казалось бы, простое изменение алгоритма имело колоссальный эффект на общую вычислительную производительность всей отрасли .

🔄 Скорость итераций и продуктивность исследователя 7:48

Эндрю Ын утверждает, что высокая скорость вычислений важна не только сама по себе, но и для ускорения цикла разработки . Процесс создания нейросети — это всегда итерационный цикл:

Идея: У вас появляется гипотеза о структуре сети.
Код: Вы реализуете идею в программном коде.
Эксперимент: Вы запускаете обучение и проверяете результат.

Если нейросеть обучается месяц, исследователь может проверить за год всего 12 идей. Но если результат эксперимента готов через 10 минут или хотя бы за день, количество проверенных гипотез возрастает в десятки раз . Это позволяет практикам и исследователям гораздо быстрее находить эффективные архитектуры для своих задач .

🔭 Будущее технологии 9:23

В завершение лекции Эндрю Ын выражает уверенность в том, что силы, вызвавшие взлет Deep Learning, продолжат действовать и дальше . Общество генерирует всё больше цифровых данных, оборудование (специализированные GPU и сетевые технологии) становится мощнее, а исследовательское сообщество продолжает генерировать феноменальные алгоритмические идеи . Основатель DeepLearning.AI сохраняет оптимизм: технологии глубокого обучения будут становиться лучше еще многие годы .