Алекс Ратнер: «Программная разметка данных — ключ к масштабируемому AI»

Eye on AI 988 45 мин 3 мин 28.10.2020
Главное

🤖 Программная разметка данных: как Snorkel AI меняет подход к машинному обучению 1:54

В современном мире машинного обучения (Machine Learning, ML) качество и количество размеченных данных стали главным узким местом. Вместо ручной разметки миллионов примеров, что требует колоссальных затрат времени и средств, исследователи предлагают использовать программный подход. В центре этой трансформации стоит Алекс Ратнер, доцент Вашингтонского университета и сооснователь Snorkel AI. Вместе с ведущим подкаста Eye on AI Крейгом Смитом он обсуждает, как автоматизация подготовки обучающих выборок с помощью «слабого наблюдения» (weak supervision) позволяет компаниям быстрее создавать сложные модели, не полагаясь исключительно на ручной труд.

📉 Кризис «данных» в глубоком обучении 2:44

Переход от классических алгоритмов к глубоким нейронным сетям кардинально изменил требования к инфраструктуре. Если раньше инженеры тратили время на feature engineering — ручной подбор признаков, на которые должен смотреть алгоритм, — то теперь нейросети самостоятельно обучаются репрезентациям, поглощая огромные объемы данных.

По мнению Ратнера, сегодня команды тратят 90% времени не на разработку архитектуры модели, а на ожидание разметки данных коллегами или внешними подрядчиками.

💡 Программная разметка как решение 12:42

Snorkel AI предлагает концепцию, в которой эксперты предметной области задают правила разметки с помощью программного кода или эвристик, а не вручную отмечают каждый объект.

  1. Labeling Functions (Функции разметки): Эксперт пишет код, который ищет ключевые слова, паттерны или использует внешние знания (онтологии, словари) для присвоения меток.
  2. Вероятностная модель: Snorkel автоматически объединяет «шумные» прогнозы от разных функций, учитывая их точность и корреляцию, даже без наличия исходных размеченных данных (Ground Truth).
  3. Гибкость: Этот подход позволяет быстро адаптироваться к изменениям. Если логика задачи (например, классификация юридических документов) меняется, достаточно обновить правила, а не переразмечать весь датасет вручную.

По словам Ратнера, такой метод позволяет сэкономить месяцы работы персонала, заменяя 8–14 человеко-месяцев ручного труда буквально часами настройки функций разметки.

🖼️ Работа с изображениями и видео 24:03

Применение программной разметки к нетекстовым данным требует использования промежуточных «примитивов» или связей между модальностями.

🔮 Будущее и автоматизация обучения 28:12

Ратнер отмечает, что переход к программной разметке открывает возможности для создания более абстрактных уровней управления процессом. Snorkel AI стремится сделать процесс «нажатия кнопок» доступным даже для тех, кто не умеет писать код, используя шаблоны и графические интерфейсы.

Как подчеркивает Ратнер, Snorkel — это «человек в цикле», где эксперт остается драйвером процесса, а машина берет на себя рутину, связанную с масштабированием и согласованием данных.

💬 Цитаты

«Сегодня команды тратят 90% времени не на разработку архитектуры модели, а на ожидание разметки данных.»

Алекс Ратнер 23:37

«Мы заменяем месяцы ручного труда часами настройки функций разметки.»

Алекс Ратнер 41:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Weak Supervision (Слабое наблюдение)
Подход, при котором для обучения модели используются шумные, неточные или косвенные источники меток.
Labeling Functions (Функции разметки)
Программные правила, написанные экспертами, которые автоматически классифицируют данные.
Feature Engineering (Проектирование признаков)
Процесс ручного выбора и преобразования данных для того, чтобы модель лучше их понимала.
Ground Truth (Золотой стандарт)
Набор данных, размеченный человеком с максимальной точностью и считающийся истиной.
📊 Цифры
🗓 Хронология
  1. 2015 Запуск академического проекта Snorkel в Стэнфорде.
  2. 2017 Публикация работы по автоматизации аугментации данных с помощью трансформационных функций.
⚖️ Другая сторона
Искусственный интеллект Snorkel AI Machine Learning Weak Supervision Labeling Functions Deep Learning