Эндрю Ын: «Тратить месяц на сбор данных перед первой моделью — это ошибка»

DeepLearning.AI 8,8 тыс. 12 мин 4 мин 21.04.2022
Главное

В новом уроке курса по MLOps от DeepLearning.AI основатель проекта Эндрю Ын разбирает критически важный этап жизненного цикла машинного обучения — сбор данных. Вместо того чтобы стремиться к созданию идеального датасета с первой попытки, эксперт предлагает сфокусироваться на скорости итераций и разумном распределении ресурсов, объясняя, почему инженерам иногда полезно размечать данные самостоятельно и почему не стоит увеличивать объем выборки более чем в 10 раз за один шаг.

🔄 Итеративный цикл: почему скорость важнее объема 0:01

Машинное обучение — это в высшей степени итеративный процесс. По словам Эндрю Ына, типичный цикл включает выбор модели и гиперпараметров, подготовку данных, само обучение и последующий анализ ошибок . На основе этого анализа команда снова возвращается к изменению данных или модели.

Ключевой ошибкой многих команд эксперт считает чрезмерно длительный сбор данных на старте. Если обучение модели занимает пару дней и еще столько же уходит на анализ ошибок, Ын призывает не тратить 30 дней на первоначальный сбор данных . По его мнению, такая задержка на целый месяц неоправданна, так как именно первая обученная модель и анализ её ошибок покажут, какие именно данные действительно нужны проекту.

Эндрю Ын рекомендует придерживаться следующих принципов на старте:

Если же задача новая, Ын утверждает, что гораздо эффективнее собрать малый объем данных, обучить модель и позволить анализу ошибок направить дальнейшие усилия по расширению датасета .

📊 Инвентаризация источников: баланс денег и времени 3:47

При поиске данных Ын советует провести полную «инвентаризацию» доступных источников, учитывая не только их финансовую стоимость, но и временные затраты инженеров. На примере проекта по распознаванию речи он выделяет несколько типов источников:

  1. Собственные данные: то, что уже есть у компании. Стоимость — $0, доступность — мгновенная .
  2. Краудсорсинговое чтение: нанять людей, чтобы они зачитывали предложенный текст. Это дешево, но требует создания софта для записи и интеграции, что может занять до двух недель работы программистов .
  3. Транскрибация имеющегося аудио: оплата разметки неразмеченного аудио. Это дороже (около $6000 за 100 часов качественной работы), но дает более естественные данные .
  4. Покупка готовых баз: обращение к коммерческим организациям. Это может быть быстро, если процесс закупки (Purchase Order) в компании отлажен .

По мнению Ына, многие команды совершают ошибку, выбирая случайный метод сбора (например, сразу идут в краудсорсинг), не проанализировав альтернативы по стоимости и времени исполнения .

✍️ Стратегии разметки: когда ML-инженеру стоит взять в руки маркер 7:08

Существует три основных способа разметки данных: штатные сотрудники (In-house), аутсорсинг (специализированные компании) и краудсорсинг (широкие платформы) . Выбор зависит от сложности задачи и требований к качеству.

Эндрю Ын выделяет несколько важных нюансов:

📈 Правило масштабирования: почему нельзя прыгать выше 10x 10:37

Когда базовая модель готова и принято решение об увеличении датасета, возникает вопрос: насколько сильно его расширять? Эндрю Ын дает конкретный совет: не увеличивать объем данных более чем в 10 раз за один шаг .

Если у вас есть 1000 примеров, эксперт рекомендует увеличить их количество до 3000 или максимум до 10 000, после чего обязательно обучить модель заново и провести анализ ошибок .

Аргументы Ына в пользу постепенного роста:

  1. Непредсказуемость: при десятикратном увеличении объема данных поведение модели и характер ошибок меняются настолько сильно, что прогнозировать результат становится практически невозможно .
  2. Риск избыточных инвестиций: без промежуточного анализа команда рискует потратить огромные средства на сбор данных, которые могут оказаться бесполезными для решения конкретных проблем модели .

В завершение урока Ын отмечает, что по мере роста объема данных команды неизбежно сталкиваются с необходимостью построения автоматизированных пайплайнов (Data Pipelines), где данные проходят через множество этапов предобработки .

💬 Цитаты

«Я призываю вас не тратить 30 дней на сбор данных, потому что это задержит ваше вхождение в цикл итерации на целый месяц.»

«Когда я работаю над новым проектом, я часто не против потратить несколько часов или день-два на самостоятельную разметку данных.»

«Мой совет командам: не увеличивайте объем данных более чем в 10 раз за один прием.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
MLOps
Набор практик, направленных на надежное и эффективное развертывание и обслуживание моделей машинного обучения в производстве.
Error Analysis
Процесс ручного изучения примеров, на которых модель ошиблась, для понимания причин и приоритизации дальнейшей разработки.
SME (Subject Matter Expert)
Эксперт в предметной области, обладающий глубокими знаниями в специфической сфере (например, медицине или производстве).
Data Pipeline
Последовательность этапов обработки данных от первоначального сбора до подачи в модель для обучения или инференса.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Эндрю Ын MLOps DeepLearning.AI разметка данных Subject Matter Expert