Одри Смит: «За каждым API в разметке данных стоит живой человек»

The TWIML AI Podcast 564 53 мин 4 мин 18.07.2022
Главное

В новом выпуске The TWIML AI Podcast ведущий Сэм Черрингтон обсуждает с Одри Смит (Audrey Smith), операционным директором компании MLTwist, эволюцию и критическую важность операций по разметке данных в современной индустрии искусственного интеллекта. Эксперт делится уникальным опытом перехода из юриспруденции в сферу машинного обучения и объясняет, почему качественная разметка — это не только алгоритмы, но и правильное управление человеческим капиталом.

⚖️ От юридической практики к «глазам» нейросетей 1:11

Карьера Одри Смит в технологической индустрии началась необычно: она получила юридическое образование во Франции и практиковала право три года, прежде чем переехать в Великобританию, а затем в США в 2014 году . Не имея технического бэкграунда, она искала работу, где требовалось знание французского языка.

Ее первой точкой соприкосновения с ИИ стала работа по проверке аудиозаписей для Siri — она анализировала, как франкоязычные пользователи взаимодействуют с голосовым помощником . Этот опыт заложил фундамент для последующей карьеры:

По словам Одри Смит, современный рынок инструментов для разметки переполнен: существует более 80 платформ и еще больше компаний, предоставляющих рабочую силу . MLTwist позиционирует себя как «связующее звено» или middleware, помогающее дата-сайентистам подключать нужные инструменты и исполнителей без необходимости вручную менять форматы данных под каждую платформу .

🛠️ Типичный путь организации в Labeling Ops 5:03

Для большинства компаний, начинающих путь в ИИ, процесс разметки становится «бутылочным горлышком». Одри Смит отмечает, что на ранних этапах у стартапов обычно нет выделенного специалиста по операциям разметки, и эти задачи ложатся на плечи дата-сайентистов или продакт-менеджеров .

Основные сложности на старте:

  1. Выбор подрядчика: оценка сильных и слабых сторон различных трудовых ресурсов (workforce) занимает месяцы .
  2. Форматирование данных: постоянная трансформация внутренних данных под специфические требования платформ разметки .
  3. Контроль качества: достижение высокого уровня точности — это не разовая акция, а процесс постоянного обучения исполнителей .

Сэм Черрингтон поднял вопрос о необходимости глубокого бизнес-контекста для разметки . Одри Смит утверждает, что даже сложные медицинские задачи можно успешно передавать на аутсорс. В одном из экспериментов сравнение работы профессиональных врачей и обычных разметчиков, обученных врачами, показало сопоставимые результаты . Одри подчеркивает: выбор между внутренней командой и аутсорсом — это всегда баланс между скоростью (внутренняя команда быстрее) и стоимостью (аутсорс дешевле, но требует времени на трансфер знаний) .

🧠 Искусство перевода: от инженерии к простым инструкциям 12:06

Одри Смит определяет ключевой навык менеджера по разметке как умение переводить технические требования инженеров в простые задачи для людей без технического образования . Она советует коллегам:

В качестве примера сложности она приводит проект по дополненной реальности (AR) . Задача заключалась в визуализации товаров (ламп, диванов) в реальном интерьере. Сложность была не в самой аннотации, а в технологических ограничениях: например, система не могла обрабатывать «острые» (spiky) объекты, и команде разметки приходилось фильтровать входные данные, взаимодействуя с множеством стейкхолдеров внутри и снаружи компании .

📉 Метрики успеха и «Железный треугольник» разметки 35:46

Одри Смит подчеркивает, что в разметке данных, как и в любом производстве, существует классический конфликт интересов, который она называет тремя ключевыми метриками :

  1. Качество (Quality): Все хотят 99–100%, но это крайне дорого и сложно поддерживать.
  2. Скорость (Turnaround Time): Некоторые клиенты требуют результат за 5 минут, что почти невыполнимо при высоком качестве и географически распределенной команде .
  3. Бюджет (Budget): Ограничение, которое диктует выбор стратегии.

По мнению гостьи, достичь всех трех показателей одновременно крайне сложно. Краудсорсинг дает скорость и низкую цену, но нестабильное качество. Внутренняя команда гарантирует качество, но обходится дорого и ограничена в масштабировании .

Для поддержания качества Одри рекомендует регулярные проверки: спот-чеки 100 изображений каждые два дня дают лучшее понимание состояния датасета, чем формальная статистическая значимость раз в месяц . Также эффективна стратегия «консенсуса», когда одно изображение размечают трое человек. При достижении стабильного качества количество проверяющих можно снижать до двух и, наконец, до одного для экономии бюджета .

🌍 Этика и «Справедливая торговля» в мире данных 45:01

Обсуждая острые темы эксплуатации труда в странах с низким доходом (например, в Венесуэле или Кении), Одри Смит проводит параллель с сертификацией Fair Trade в торговле кофе . Она считает, что индустрия должна прийти к созданию комитетов по «справедливой разметке данных».

В вопросах модерации контента, которая может быть психологически травматичной, Одри выделяет лучшие практики крупных компаний (FANG):

Одри Смит и Сэм Черрингтон сошлись во мнении, что за каждой строчкой в API стоит человеческая жизнь . Для многих людей в развивающихся странах разметка данных становится «социальным лифтом», позволяя перейти от простого аннотирования к ролям тимлидов и программных менеджеров .

🔮 Будущее Data Labeling Ops 51:40

В финале беседы Одри Смит дает два прогноза:

  1. Унификация экосистемы: Рынок инструментов сейчас слишком фрагментирован. В будущем он станет более интегрированным и понятным для бизнеса .
  2. Профессионализация роли: Специалисты по Labeling Ops станут обязательными сотрудниками даже в небольших компаниях, так как инженеры должны заниматься моделями, а не управлением человеческими потоками .
💬 Цитаты

«Одна из важнейших задач менеджера по операциям — умение переводить технические требования в простые задачи.»

Одри Смит 12:32

«Как в кофе есть fair trade, так и в разметке будущего должны появиться правила защиты работников.»

Одри Смит 48:31
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Labeling Ops
Операционное управление процессом разметки данных, включая выбор инструментов, обучение людей и контроль качества.
Bounding Boxes
Тип разметки, при котором объекты на изображении выделяются прямоугольными рамками.
Middleware
Программное обеспечение, которое служит мостом между различными приложениями или компонентами системы.
📊 Цифры
🗓 Хронология
  1. 2014 Переезд Одри Смит в США и начало работы в технологической индустрии.
  2. 2014-2018 Период работы в Amazon над проектами разметки данных.
  3. 2022 Одри Смит присоединилась к MLTwist в качестве COO.
⚖️ Другая сторона
Искусственный интеллект Audrey Smith The TWIML AI Podcast MLTwist Data Labeling Machine Learning Ops