В новом уроке курса по MLOps от DeepLearning.AI основатель проекта Эндрю Ын разбирает критически важный этап жизненного цикла машинного обучения — сбор данных. Вместо того чтобы стремиться к созданию идеального датасета с первой попытки, эксперт предлагает сфокусироваться на скорости итераций и разумном распределении ресурсов, объясняя, почему инженерам иногда полезно размечать данные самостоятельно и почему не стоит увеличивать объем выборки более чем в 10 раз за один шаг.
🔄 Итеративный цикл: почему скорость важнее объема 0:01
Машинное обучение — это в высшей степени итеративный процесс. По словам Эндрю Ына, типичный цикл включает выбор модели и гиперпараметров, подготовку данных, само обучение и последующий анализ ошибок . На основе этого анализа команда снова возвращается к изменению данных или модели.
Ключевой ошибкой многих команд эксперт считает чрезмерно длительный сбор данных на старте. Если обучение модели занимает пару дней и еще столько же уходит на анализ ошибок, Ын призывает не тратить 30 дней на первоначальный сбор данных . По его мнению, такая задержка на целый месяц неоправданна, так как именно первая обученная модель и анализ её ошибок покажут, какие именно данные действительно нужны проекту.
Эндрю Ын рекомендует придерживаться следующих принципов на старте:
- Правило двух дней: стоит задать себе вопрос — что можно собрать всего за два дня, чтобы как можно быстрее запустить первую итерацию? .
- Креативность и «крафтовость»: Ын отмечает, что жесткие временные рамки (например, неделя на сбор данных) заставляют команды искать нестандартные и быстрые способы получения информации, при этом полностью соблюдая конфиденциальность пользователей и регуляторные нормы .
- Исключение из правил: тратить больше времени на старте допустимо только в том случае, если у команды уже есть опыт в конкретной области (например, в распознавании речи) и эксперты точно знают минимально необходимый порог объема данных для работы алгоритмов .
Если же задача новая, Ын утверждает, что гораздо эффективнее собрать малый объем данных, обучить модель и позволить анализу ошибок направить дальнейшие усилия по расширению датасета .
📊 Инвентаризация источников: баланс денег и времени 3:47
При поиске данных Ын советует провести полную «инвентаризацию» доступных источников, учитывая не только их финансовую стоимость, но и временные затраты инженеров. На примере проекта по распознаванию речи он выделяет несколько типов источников:
- Собственные данные: то, что уже есть у компании. Стоимость — $0, доступность — мгновенная .
- Краудсорсинговое чтение: нанять людей, чтобы они зачитывали предложенный текст. Это дешево, но требует создания софта для записи и интеграции, что может занять до двух недель работы программистов .
- Транскрибация имеющегося аудио: оплата разметки неразмеченного аудио. Это дороже (около $6000 за 100 часов качественной работы), но дает более естественные данные .
- Покупка готовых баз: обращение к коммерческим организациям. Это может быть быстро, если процесс закупки (Purchase Order) в компании отлажен .
По мнению Ына, многие команды совершают ошибку, выбирая случайный метод сбора (например, сразу идут в краудсорсинг), не проанализировав альтернативы по стоимости и времени исполнения .
✍️ Стратегии разметки: когда ML-инженеру стоит взять в руки маркер 7:08
Существует три основных способа разметки данных: штатные сотрудники (In-house), аутсорсинг (специализированные компании) и краудсорсинг (широкие платформы) . Выбор зависит от сложности задачи и требований к качеству.
Эндрю Ын выделяет несколько важных нюансов:
- Личное участие инженеров: хотя работа ML-инженера стоит дорого, Ын считает полезным, если разработчики сами размечают данные в течение нескольких дней на старте проекта. Это помогает развить интуицию относительно данных и понять их структуру .
- Квалификация разметчиков: для распознавания речи подойдет любой носитель языка. Однако для дефектоскопии на заводе или диагностики по медицинским снимкам обычного человека с улицы недостаточно .
- Subject Matter Experts (SME): в специализированных областях для качественной разметки требуются эксперты в предметной области (врачи, технологи) .
- Поведенческие данные: в системах рекомендаций (например, товаров) даже лучший друг или эксперт не сможет сделать разметку лучше, чем сам пользователь своими действиями (фактами покупок). В таких случаях единственным источником «меток» является история транзакций .
📈 Правило масштабирования: почему нельзя прыгать выше 10x 10:37
Когда базовая модель готова и принято решение об увеличении датасета, возникает вопрос: насколько сильно его расширять? Эндрю Ын дает конкретный совет: не увеличивать объем данных более чем в 10 раз за один шаг .
Если у вас есть 1000 примеров, эксперт рекомендует увеличить их количество до 3000 или максимум до 10 000, после чего обязательно обучить модель заново и провести анализ ошибок .
Аргументы Ына в пользу постепенного роста:
- Непредсказуемость: при десятикратном увеличении объема данных поведение модели и характер ошибок меняются настолько сильно, что прогнозировать результат становится практически невозможно .
- Риск избыточных инвестиций: без промежуточного анализа команда рискует потратить огромные средства на сбор данных, которые могут оказаться бесполезными для решения конкретных проблем модели .
В завершение урока Ын отмечает, что по мере роста объема данных команды неизбежно сталкиваются с необходимостью построения автоматизированных пайплайнов (Data Pipelines), где данные проходят через множество этапов предобработки .