Эндрю Ын: «Тратить месяц на сбор данных перед первой моделью — это ошибка»

В новом уроке курса по MLOps от DeepLearning.AI основатель проекта Эндрю Ын разбирает критически важный этап жизненного цикла машинного обучения — сбор данных. Вместо того чтобы стремиться к созданию идеального датасета с первой попытки, эксперт предлагает сфокусироваться на скорости итераций и разумном распределении ресурсов, объясняя, почему инженерам иногда полезно размечать данные самостоятельно и почему не стоит увеличивать объем выборки более чем в 10 раз за один шаг.

🔄 Итеративный цикл: почему скорость важнее объема 0:01

Машинное обучение — это в высшей степени итеративный процесс. По словам Эндрю Ына, типичный цикл включает выбор модели и гиперпараметров, подготовку данных, само обучение и последующий анализ ошибок . На основе этого анализа команда снова возвращается к изменению данных или модели.

Ключевой ошибкой многих команд эксперт считает чрезмерно длительный сбор данных на старте. Если обучение модели занимает пару дней и еще столько же уходит на анализ ошибок, Ын призывает не тратить 30 дней на первоначальный сбор данных . По его мнению, такая задержка на целый месяц неоправданна, так как именно первая обученная модель и анализ её ошибок покажут, какие именно данные действительно нужны проекту.

Эндрю Ын рекомендует придерживаться следующих принципов на старте:

Правило двух дней: стоит задать себе вопрос — что можно собрать всего за два дня, чтобы как можно быстрее запустить первую итерацию? .
Креативность и «крафтовость»: Ын отмечает, что жесткие временные рамки (например, неделя на сбор данных) заставляют команды искать нестандартные и быстрые способы получения информации, при этом полностью соблюдая конфиденциальность пользователей и регуляторные нормы .
Исключение из правил: тратить больше времени на старте допустимо только в том случае, если у команды уже есть опыт в конкретной области (например, в распознавании речи) и эксперты точно знают минимально необходимый порог объема данных для работы алгоритмов .

Если же задача новая, Ын утверждает, что гораздо эффективнее собрать малый объем данных, обучить модель и позволить анализу ошибок направить дальнейшие усилия по расширению датасета .

📊 Инвентаризация источников: баланс денег и времени 3:47

При поиске данных Ын советует провести полную «инвентаризацию» доступных источников, учитывая не только их финансовую стоимость, но и временные затраты инженеров. На примере проекта по распознаванию речи он выделяет несколько типов источников:

Собственные данные: то, что уже есть у компании. Стоимость — $0, доступность — мгновенная .
Краудсорсинговое чтение: нанять людей, чтобы они зачитывали предложенный текст. Это дешево, но требует создания софта для записи и интеграции, что может занять до двух недель работы программистов .
Транскрибация имеющегося аудио: оплата разметки неразмеченного аудио. Это дороже (около $6000 за 100 часов качественной работы), но дает более естественные данные .
Покупка готовых баз: обращение к коммерческим организациям. Это может быть быстро, если процесс закупки (Purchase Order) в компании отлажен .

По мнению Ына, многие команды совершают ошибку, выбирая случайный метод сбора (например, сразу идут в краудсорсинг), не проанализировав альтернативы по стоимости и времени исполнения .

✍️ Стратегии разметки: когда ML-инженеру стоит взять в руки маркер 7:08

Существует три основных способа разметки данных: штатные сотрудники (In-house), аутсорсинг (специализированные компании) и краудсорсинг (широкие платформы) . Выбор зависит от сложности задачи и требований к качеству.

Эндрю Ын выделяет несколько важных нюансов:

Личное участие инженеров: хотя работа ML-инженера стоит дорого, Ын считает полезным, если разработчики сами размечают данные в течение нескольких дней на старте проекта. Это помогает развить интуицию относительно данных и понять их структуру .
Квалификация разметчиков: для распознавания речи подойдет любой носитель языка. Однако для дефектоскопии на заводе или диагностики по медицинским снимкам обычного человека с улицы недостаточно .
Subject Matter Experts (SME): в специализированных областях для качественной разметки требуются эксперты в предметной области (врачи, технологи) .
Поведенческие данные: в системах рекомендаций (например, товаров) даже лучший друг или эксперт не сможет сделать разметку лучше, чем сам пользователь своими действиями (фактами покупок). В таких случаях единственным источником «меток» является история транзакций .

📈 Правило масштабирования: почему нельзя прыгать выше 10x 10:37

Когда базовая модель готова и принято решение об увеличении датасета, возникает вопрос: насколько сильно его расширять? Эндрю Ын дает конкретный совет: не увеличивать объем данных более чем в 10 раз за один шаг .

Если у вас есть 1000 примеров, эксперт рекомендует увеличить их количество до 3000 или максимум до 10 000, после чего обязательно обучить модель заново и провести анализ ошибок .

Аргументы Ына в пользу постепенного роста:

Непредсказуемость: при десятикратном увеличении объема данных поведение модели и характер ошибок меняются настолько сильно, что прогнозировать результат становится практически невозможно .
Риск избыточных инвестиций: без промежуточного анализа команда рискует потратить огромные средства на сбор данных, которые могут оказаться бесполезными для решения конкретных проблем модели .

В завершение урока Ын отмечает, что по мере роста объема данных команды неизбежно сталкиваются с необходимостью построения автоматизированных пайплайнов (Data Pipelines), где данные проходят через множество этапов предобработки .