# Эндрю Ын: «Тратить месяц на сбор данных перед первой моделью — это ошибка»

Источник: https://www.youtube.com/watch?v=qt9tXjtlQt4
Канал: DeepLearning.AI
Опубликовано: 21.04.2022

---

В новом уроке курса по MLOps от DeepLearning.AI основатель проекта Эндрю Ын разбирает критически важный этап жизненного цикла машинного обучения — сбор данных. Вместо того чтобы стремиться к созданию идеального датасета с первой попытки, эксперт предлагает сфокусироваться на скорости итераций и разумном распределении ресурсов, объясняя, почему инженерам иногда полезно размечать данные самостоятельно и почему не стоит увеличивать объем выборки более чем в 10 раз за один шаг.

## 🔄 Итеративный цикл: почему скорость важнее объема
[[JUMP:0:01]]

Машинное обучение — это в высшей степени итеративный процесс. По словам Эндрю Ына, типичный цикл включает выбор модели и гиперпараметров, подготовку данных, само обучение и последующий анализ ошибок [0:28]. На основе этого анализа команда снова возвращается к изменению данных или модели.

Ключевой ошибкой многих команд эксперт считает чрезмерно длительный сбор данных на старте. Если обучение модели занимает пару дней и еще столько же уходит на анализ ошибок, Ын призывает не тратить 30 дней на первоначальный сбор данных [1:07]. По его мнению, такая задержка на целый месяц неоправданна, так как именно первая обученная модель и анализ её ошибок покажут, какие именно данные действительно нужны проекту.

Эндрю Ын рекомендует придерживаться следующих принципов на старте:

*   **Правило двух дней:** стоит задать себе вопрос — что можно собрать всего за два дня, чтобы как можно быстрее запустить первую итерацию? [1:32].
*   **Креативность и «крафтовость»:** Ын отмечает, что жесткие временные рамки (например, неделя на сбор данных) заставляют команды искать нестандартные и быстрые способы получения информации, при этом полностью соблюдая конфиденциальность пользователей и регуляторные нормы [2:15].
*   **Исключение из правил:** тратить больше времени на старте допустимо только в том случае, если у команды уже есть опыт в конкретной области (например, в распознавании речи) и эксперты точно знают минимально необходимый порог объема данных для работы алгоритмов [2:43].

Если же задача новая, Ын утверждает, что гораздо эффективнее собрать малый объем данных, обучить модель и позволить анализу ошибок направить дальнейшие усилия по расширению датасета [3:34].

## 📊 Инвентаризация источников: баланс денег и времени
[[JUMP:3:47]]

При поиске данных Ын советует провести полную «инвентаризацию» доступных источников, учитывая не только их финансовую стоимость, но и временные затраты инженеров. На примере проекта по распознаванию речи он выделяет несколько типов источников:

1.  **Собственные данные:** то, что уже есть у компании. Стоимость — $0, доступность — мгновенная [4:00].
2.  **Краудсорсинговое чтение:** нанять людей, чтобы они зачитывали предложенный текст. Это дешево, но требует создания софта для записи и интеграции, что может занять до двух недель работы программистов [4:13].
3.  **Транскрибация имеющегося аудио:** оплата разметки неразмеченного аудио. Это дороже (около $6000 за 100 часов качественной работы), но дает более естественные данные [4:39].
4.  **Покупка готовых баз:** обращение к коммерческим организациям. Это может быть быстро, если процесс закупки (Purchase Order) в компании отлажен [5:46].

По мнению Ына, многие команды совершают ошибку, выбирая случайный метод сбора (например, сразу идут в краудсорсинг), не проанализировав альтернативы по стоимости и времени исполнения [5:59].

## ✍️ Стратегии разметки: когда ML-инженеру стоит взять в руки маркер
[[JUMP:7:08]]

Существует три основных способа разметки данных: штатные сотрудники (In-house), аутсорсинг (специализированные компании) и краудсорсинг (широкие платформы) [7:08]. Выбор зависит от сложности задачи и требований к качеству.

Эндрю Ын выделяет несколько важных нюансов:

*   **Личное участие инженеров:** хотя работа ML-инженера стоит дорого, Ын считает полезным, если разработчики сами размечают данные в течение нескольких дней на старте проекта. Это помогает развить интуицию относительно данных и понять их структуру [8:01].
*   **Квалификация разметчиков:** для распознавания речи подойдет любой носитель языка. Однако для дефектоскопии на заводе или диагностики по медицинским снимкам обычного человека с улицы недостаточно [9:12].
*   **Subject Matter Experts (SME):** в специализированных областях для качественной разметки требуются эксперты в предметной области (врачи, технологи) [9:26].
*   **Поведенческие данные:** в системах рекомендаций (например, товаров) даже лучший друг или эксперт не сможет сделать разметку лучше, чем сам пользователь своими действиями (фактами покупок). В таких случаях единственным источником «меток» является история транзакций [9:39].

## 📈 Правило масштабирования: почему нельзя прыгать выше 10x
[[JUMP:10:37]]

Когда базовая модель готова и принято решение об увеличении датасета, возникает вопрос: насколько сильно его расширять? Эндрю Ын дает конкретный совет: не увеличивать объем данных более чем в 10 раз за один шаг [10:51].

Если у вас есть 1000 примеров, эксперт рекомендует увеличить их количество до 3000 или максимум до 10 000, после чего обязательно обучить модель заново и провести анализ ошибок [11:06].

Аргументы Ына в пользу постепенного роста:

1.  **Непредсказуемость:** при десятикратном увеличении объема данных поведение модели и характер ошибок меняются настолько сильно, что прогнозировать результат становится практически невозможно [11:19].
2.  **Риск избыточных инвестиций:** без промежуточного анализа команда рискует потратить огромные средства на сбор данных, которые могут оказаться бесполезными для решения конкретных проблем модели [11:44].

В завершение урока Ын отмечает, что по мере роста объема данных команды неизбежно сталкиваются с необходимостью построения автоматизированных пайплайнов (Data Pipelines), где данные проходят через множество этапов предобработки [12:11].