# Одри Смит: «За каждым API в разметке данных стоит живой человек»

Источник: https://www.youtube.com/watch?v=lVMQpTBQreU
Канал: The TWIML AI Podcast
Опубликовано: 18.07.2022

---

В новом выпуске **The TWIML AI Podcast** ведущий Сэм Черрингтон обсуждает с **Одри Смит (Audrey Smith)**, операционным директором компании MLTwist, эволюцию и критическую важность операций по разметке данных в современной индустрии искусственного интеллекта. Эксперт делится уникальным опытом перехода из юриспруденции в сферу машинного обучения и объясняет, почему качественная разметка — это не только алгоритмы, но и правильное управление человеческим капиталом.

## ⚖️ От юридической практики к «глазам» нейросетей
[[JUMP:01:11]]

Карьера **Одри Смит** в технологической индустрии началась необычно: она получила юридическое образование во Франции и практиковала право три года, прежде чем переехать в Великобританию, а затем в США в 2014 году [01:23]. Не имея технического бэкграунда, она искала работу, где требовалось знание французского языка. 

Ее первой точкой соприкосновения с ИИ стала работа по проверке аудиозаписей для Siri — она анализировала, как франкоязычные пользователи взаимодействуют с голосовым помощником [02:14]. Этот опыт заложил фундамент для последующей карьеры:

*   **Google:** работа над проектами соблюдения GDPR, политикой рекламы и пользовательским опытом [02:26].
*   **Amazon:** четыре года управления операциями по разметке видео, изображений и текста для различных внутренних команд [02:39].
*   **Labelbox:** роль директора по операциям разметки в период роста компании (Series A) [02:53].
*   **MLTwist:** нынешняя позиция операционного директора [03:06].

По словам Одри Смит, современный рынок инструментов для разметки переполнен: существует более 80 платформ и еще больше компаний, предоставляющих рабочую силу [03:45]. MLTwist позиционирует себя как «связующее звено» или middleware, помогающее дата-сайентистам подключать нужные инструменты и исполнителей без необходимости вручную менять форматы данных под каждую платформу [04:38].

## 🛠️ Типичный путь организации в Labeling Ops
[[JUMP:05:03]]

Для большинства компаний, начинающих путь в ИИ, процесс разметки становится «бутылочным горлышком». Одри Смит отмечает, что на ранних этапах у стартапов обычно нет выделенного специалиста по операциям разметки, и эти задачи ложатся на плечи дата-сайентистов или продакт-менеджеров [05:44].

Основные сложности на старте:

1.  **Выбор подрядчика:** оценка сильных и слабых сторон различных трудовых ресурсов (workforce) занимает месяцы [06:11].
2.  **Форматирование данных:** постоянная трансформация внутренних данных под специфические требования платформ разметки [06:50].
3.  **Контроль качества:** достижение высокого уровня точности — это не разовая акция, а процесс постоянного обучения исполнителей [07:03].

Сэм Черрингтон поднял вопрос о необходимости глубокого бизнес-контекста для разметки [09:42]. Одри Смит утверждает, что даже сложные медицинские задачи можно успешно передавать на аутсорс. В одном из экспериментов сравнение работы профессиональных врачей и обычных разметчиков, обученных врачами, показало сопоставимые результаты [10:34]. Одри подчеркивает: выбор между внутренней командой и аутсорсом — это всегда баланс между скоростью (внутренняя команда быстрее) и стоимостью (аутсорс дешевле, но требует времени на трансфер знаний) [11:53].

## 🧠 Искусство перевода: от инженерии к простым инструкциям
[[JUMP:12:06]]

Одри Смит определяет ключевой навык менеджера по разметке как умение переводить технические требования инженеров в простые задачи для людей без технического образования [12:32]. Она советует коллегам:

*   Всегда фиксировать требования на бумаге, отсекая лишнее.
*   Самостоятельно размечать несколько первых примеров, чтобы понять слабые места инструкций [12:41].
*   Давать разметчикам «смысл» работы: показывать пресс-релизы и сайты готовых продуктов, чтобы люди понимали значимость своего труда [13:51].

В качестве примера сложности она приводит проект по дополненной реальности (AR) [14:32]. Задача заключалась в визуализации товаров (ламп, диванов) в реальном интерьере. Сложность была не в самой аннотации, а в технологических ограничениях: например, система не могла обрабатывать «острые» (spiky) объекты, и команде разметки приходилось фильтровать входные данные, взаимодействуя с множеством стейкхолдеров внутри и снаружи компании [15:25].

## 📉 Метрики успеха и «Железный треугольник» разметки
[[JUMP:35:46]]

Одри Смит подчеркивает, что в разметке данных, как и в любом производстве, существует классический конфликт интересов, который она называет тремя ключевыми метриками [43:01]:

1.  **Качество (Quality):** Все хотят 99–100%, но это крайне дорого и сложно поддерживать.
2.  **Скорость (Turnaround Time):** Некоторые клиенты требуют результат за 5 минут, что почти невыполнимо при высоком качестве и географически распределенной команде [43:14].
3.  **Бюджет (Budget):** Ограничение, которое диктует выбор стратегии.

По мнению гостьи, достичь всех трех показателей одновременно крайне сложно. Краудсорсинг дает скорость и низкую цену, но нестабильное качество. Внутренняя команда гарантирует качество, но обходится дорого и ограничена в масштабировании [44:22].

Для поддержания качества Одри рекомендует регулярные проверки: спот-чеки 100 изображений каждые два дня дают лучшее понимание состояния датасета, чем формальная статистическая значимость раз в месяц [39:04]. Также эффективна стратегия «консенсуса», когда одно изображение размечают трое человек. При достижении стабильного качества количество проверяющих можно снижать до двух и, наконец, до одного для экономии бюджета [40:50].

## 🌍 Этика и «Справедливая торговля» в мире данных
[[JUMP:45:01]]

Обсуждая острые темы эксплуатации труда в странах с низким доходом (например, в Венесуэле или Кении), Одри Смит проводит параллель с сертификацией Fair Trade в торговле кофе [48:31]. Она считает, что индустрия должна прийти к созданию комитетов по «справедливой разметке данных».

В вопросах модерации контента, которая может быть психологически травматичной, Одри выделяет лучшие практики крупных компаний (FANG):

*   Наличие терапевта на рабочих местах [48:58].
*   Работа с токсичным контентом только на добровольной основе.
*   Сокращенный рабочий день для модераторов при сохранении оплаты [49:12].

Одри Смит и Сэм Черрингтон сошлись во мнении, что за каждой строчкой в API стоит человеческая жизнь [50:20]. Для многих людей в развивающихся странах разметка данных становится «социальным лифтом», позволяя перейти от простого аннотирования к ролям тимлидов и программных менеджеров [51:13].

## 🔮 Будущее Data Labeling Ops
[[JUMP:51:40]]

В финале беседы Одри Смит дает два прогноза:

1.  **Унификация экосистемы:** Рынок инструментов сейчас слишком фрагментирован. В будущем он станет более интегрированным и понятным для бизнеса [51:53].
2.  **Профессионализация роли:** Специалисты по Labeling Ops станут обязательными сотрудниками даже в небольших компаниях, так как инженеры должны заниматься моделями, а не управлением человеческими потоками [52:19].