В новом выпуске The TWIML AI Podcast ведущий Сэм Черрингтон обсуждает с Одри Смит (Audrey Smith), операционным директором компании MLTwist, эволюцию и критическую важность операций по разметке данных в современной индустрии искусственного интеллекта. Эксперт делится уникальным опытом перехода из юриспруденции в сферу машинного обучения и объясняет, почему качественная разметка — это не только алгоритмы, но и правильное управление человеческим капиталом.
⚖️ От юридической практики к «глазам» нейросетей 1:11
Карьера Одри Смит в технологической индустрии началась необычно: она получила юридическое образование во Франции и практиковала право три года, прежде чем переехать в Великобританию, а затем в США в 2014 году . Не имея технического бэкграунда, она искала работу, где требовалось знание французского языка.
Ее первой точкой соприкосновения с ИИ стала работа по проверке аудиозаписей для Siri — она анализировала, как франкоязычные пользователи взаимодействуют с голосовым помощником . Этот опыт заложил фундамент для последующей карьеры:
- Google: работа над проектами соблюдения GDPR, политикой рекламы и пользовательским опытом .
- Amazon: четыре года управления операциями по разметке видео, изображений и текста для различных внутренних команд .
- Labelbox: роль директора по операциям разметки в период роста компании (Series A) .
- MLTwist: нынешняя позиция операционного директора .
По словам Одри Смит, современный рынок инструментов для разметки переполнен: существует более 80 платформ и еще больше компаний, предоставляющих рабочую силу . MLTwist позиционирует себя как «связующее звено» или middleware, помогающее дата-сайентистам подключать нужные инструменты и исполнителей без необходимости вручную менять форматы данных под каждую платформу .
🛠️ Типичный путь организации в Labeling Ops 5:03
Для большинства компаний, начинающих путь в ИИ, процесс разметки становится «бутылочным горлышком». Одри Смит отмечает, что на ранних этапах у стартапов обычно нет выделенного специалиста по операциям разметки, и эти задачи ложатся на плечи дата-сайентистов или продакт-менеджеров .
Основные сложности на старте:
- Выбор подрядчика: оценка сильных и слабых сторон различных трудовых ресурсов (workforce) занимает месяцы .
- Форматирование данных: постоянная трансформация внутренних данных под специфические требования платформ разметки .
- Контроль качества: достижение высокого уровня точности — это не разовая акция, а процесс постоянного обучения исполнителей .
Сэм Черрингтон поднял вопрос о необходимости глубокого бизнес-контекста для разметки . Одри Смит утверждает, что даже сложные медицинские задачи можно успешно передавать на аутсорс. В одном из экспериментов сравнение работы профессиональных врачей и обычных разметчиков, обученных врачами, показало сопоставимые результаты . Одри подчеркивает: выбор между внутренней командой и аутсорсом — это всегда баланс между скоростью (внутренняя команда быстрее) и стоимостью (аутсорс дешевле, но требует времени на трансфер знаний) .
🧠 Искусство перевода: от инженерии к простым инструкциям 12:06
Одри Смит определяет ключевой навык менеджера по разметке как умение переводить технические требования инженеров в простые задачи для людей без технического образования . Она советует коллегам:
- Всегда фиксировать требования на бумаге, отсекая лишнее.
- Самостоятельно размечать несколько первых примеров, чтобы понять слабые места инструкций .
- Давать разметчикам «смысл» работы: показывать пресс-релизы и сайты готовых продуктов, чтобы люди понимали значимость своего труда .
В качестве примера сложности она приводит проект по дополненной реальности (AR) . Задача заключалась в визуализации товаров (ламп, диванов) в реальном интерьере. Сложность была не в самой аннотации, а в технологических ограничениях: например, система не могла обрабатывать «острые» (spiky) объекты, и команде разметки приходилось фильтровать входные данные, взаимодействуя с множеством стейкхолдеров внутри и снаружи компании .
📉 Метрики успеха и «Железный треугольник» разметки 35:46
Одри Смит подчеркивает, что в разметке данных, как и в любом производстве, существует классический конфликт интересов, который она называет тремя ключевыми метриками :
- Качество (Quality): Все хотят 99–100%, но это крайне дорого и сложно поддерживать.
- Скорость (Turnaround Time): Некоторые клиенты требуют результат за 5 минут, что почти невыполнимо при высоком качестве и географически распределенной команде .
- Бюджет (Budget): Ограничение, которое диктует выбор стратегии.
По мнению гостьи, достичь всех трех показателей одновременно крайне сложно. Краудсорсинг дает скорость и низкую цену, но нестабильное качество. Внутренняя команда гарантирует качество, но обходится дорого и ограничена в масштабировании .
Для поддержания качества Одри рекомендует регулярные проверки: спот-чеки 100 изображений каждые два дня дают лучшее понимание состояния датасета, чем формальная статистическая значимость раз в месяц . Также эффективна стратегия «консенсуса», когда одно изображение размечают трое человек. При достижении стабильного качества количество проверяющих можно снижать до двух и, наконец, до одного для экономии бюджета .
🌍 Этика и «Справедливая торговля» в мире данных 45:01
Обсуждая острые темы эксплуатации труда в странах с низким доходом (например, в Венесуэле или Кении), Одри Смит проводит параллель с сертификацией Fair Trade в торговле кофе . Она считает, что индустрия должна прийти к созданию комитетов по «справедливой разметке данных».
В вопросах модерации контента, которая может быть психологически травматичной, Одри выделяет лучшие практики крупных компаний (FANG):
- Наличие терапевта на рабочих местах .
- Работа с токсичным контентом только на добровольной основе.
- Сокращенный рабочий день для модераторов при сохранении оплаты .
Одри Смит и Сэм Черрингтон сошлись во мнении, что за каждой строчкой в API стоит человеческая жизнь . Для многих людей в развивающихся странах разметка данных становится «социальным лифтом», позволяя перейти от простого аннотирования к ролям тимлидов и программных менеджеров .
🔮 Будущее Data Labeling Ops 51:40
В финале беседы Одри Смит дает два прогноза:
- Унификация экосистемы: Рынок инструментов сейчас слишком фрагментирован. В будущем он станет более интегрированным и понятным для бизнеса .
- Профессионализация роли: Специалисты по Labeling Ops станут обязательными сотрудниками даже в небольших компаниях, так как инженеры должны заниматься моделями, а не управлением человеческими потоками .