Эндрю Ын: «Сквозное обучение — это не панацея, всё решают данные»

DeepLearning.AI 47,1 тыс. 11 мин 4 мин 25.08.2017
Главное

Сквозное глубокое обучение (end-to-end deep learning) стало одним из самых обсуждаемых прорывов в области искусственного интеллекта последних лет. В этом видео Эндрю Ын, основатель DeepLearning.AI и один из самых авторитетных экспертов в мире ИИ, объясняет, как замена многоступенчатых систем обработки данных одной нейросетью меняет индустрию и почему этот подход, несмотря на свою мощь, не является универсальным решением.

🔄 От сложных конвейеров к единой сети 0:00

Традиционно системы машинного обучения строились как сложные конвейеры (pipelines), состоящие из множества последовательных этапов. Сквозное глубокое обучение предлагает радикальную альтернативу: замену всех этих промежуточных шагов одной-единственной нейронной сетью .

Эндрю Ын приводит в пример эволюцию систем распознавания речи:

  1. Традиционный подход: требовал ручного проектирования признаков звука (например, использование алгоритма MFCC) . Затем алгоритмы искали фонемы — базовые единицы звука (как «к», «о», «т» в слове «кот») . После этого фонемы объединялись в слова, а слова — в итоговый текст .
  2. Сквозной подход: огромная нейросеть получает на вход аудиоклип и сразу выдает готовую транскрипцию, полностью исключая промежуточные этапы .

По мнению Ына, внедрение таких систем вызвало определенный «социологический эффект» в научном сообществе . Исследователи, посвятившие десятилетия разработке отдельных компонентов конвейера или ручному проектированию признаков (feature engineering), обнаружили, что их многолетний труд может быть заменен одной нейросетью, обученной на большом наборе данных . Принятие этой альтернативы стало вызовом для многих специалистов, так как сквозное обучение фактически обесценило накопленный ими опыт в узких промежуточных дисциплинах .

📊 Главный ограничитель: фактор данных 2:25

Несмотря на эффективность, сквозное обучение не всегда является предпочтительным. Ключевым фактором здесь выступает объем доступных данных. Эндрю Ын утверждает, что сквозной подход начинает по-настоящему «сиять» только на очень больших датасетах .

Автор приводит конкретные цифры для систем распознавания речи:

👤 Кейс: распознавание лиц в офисах 3:30

Одной из самых наглядных иллюстраций того, почему сквозное обучение не всегда эффективно, является система распознавания лиц на турникетах, которая активно внедряется в Китае и других странах .

На первый взгляд, задача кажется простой: направить изображение с камеры (X) в нейросеть и получить идентификатор личности (Y) . Однако на практике прямой сквозной метод работает плохо. Основная проблема в том, что человек может подходить к камере под разными углами, быть ближе или дальше, из-за чего лицо на снимке может иметь разный размер и положение .

Современные и наиболее эффективные системы, по словам Ына, используют многоступенчатый подход:

  1. Детекция: специальное ПО сначала находит, где именно на кадре находится лицо человека .
  2. Кадрирование: система масштабирует и центрирует изображение лица .
  3. Идентификация: только после этого подготовленное изображение подается в нейросеть, которая сравнивает его с базой данных сотрудников .

Эндрю Ын выделяет две причины, по которым разделение задачи на этапы здесь работает лучше:

🌍 Машинный перевод и медицинская диагностика 8:46

В отличие от распознавания лиц, в машинном переводе сквозное обучение зарекомендовало себя отлично. Это связано с наличием колоссальных объемов параллельных текстов (например, пар предложений на английском и французском языках) . Традиционные системы со сложным лингвистическим анализом сегодня уступают нейросетям, обучаемым напрямую на парах X-Y .

Другой пример — оценка костного возраста ребенка по рентгеновскому снимку кисти. Педиатры используют этот метод, чтобы понять, нормально ли развивается ребенок .

Эндрю Ын считает более перспективным многошаговый подход для этой задачи:

  1. Сегментация костей на изображении.
  2. Измерение их длины и сравнение с таблицами средних показателей для разных возрастов .

Прямое обучение (снимок -> возраст) сегодня работает хуже, так как количество рентгеновских снимков с точно известным возрастом ограничено. Разделение задачи позволяет использовать меньшие объемы данных для получения точного результата .

В заключение Эндрю Ын отмечает, что сквозное глубокое обучение — это не панацея . Оно способно значительно упростить архитектуру системы и избавить от необходимости ручного проектирования компонентов, но его успех критически зависит от возможности собрать достаточно данных для прямого обучения .

💬 Цитаты

«Сквозное глубокое обучение позволяет взять множество этапов обработки и заменить их одной нейронной сетью.»

Эндрю Ын 0:14

«Это не панацея, оно работает не всегда.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
End-to-end deep learning
Подход в ИИ, при котором система обучается преобразовывать входные данные в результат напрямую, без промежуточных этапов.
MFCC
Алгоритм выделения признаков речевого сигнала, основанный на особенностях человеческого слуха.
Фонема
Минимальная звуковая единица языка.
Feature engineering
Процесс ручного создания входных признаков для моделей машинного обучения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Andrew Ng DeepLearning.AI end-to-end learning speech recognition neural networks