Шаян Моханти: «Ground Truth не существует, а ручная разметка всегда предвзята»

The TWIML AI Podcast 786 52 мин 4 мин 30.05.2022
Главное

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Шаяном Моханти, генеральным директором компании Watchful, о фундаментальном сдвиге в индустрии искусственного интеллекта. Они обсуждают концепцию «data-centric AI» (ИИ, ориентированный на данные), критикуют устоявшееся понятие «ground truth» (объективная истина) и объясняют, почему будущее машинного обучения зависит не от совершенствования алгоритмов, а от эффективности учителей.

🤖 От моделей к данным: смена парадигмы в ИИ 0:26

Современный этап развития искусственного интеллекта характеризуется переходом от «моделе-центричного» подхода к «данно-центричному» . По словам Шаяна Моханти, долгое время индустрия была сосредоточена на создании всё более сложных архитектур нейросетей, однако сейчас машинное обучение подошло к моменту, когда код и архитектуры моделей стали в значительной степени развитыми и доступными.

Ключевые тезисы этой смены парадигмы:

🏷️ Проблема традиционной разметки данных 2:38

Существует два основных способа разметки данных, и оба, по мнению гостя, имеют серьезные недостатки.

  1. Краудсорсинг (Crowd labeling): Использование «армии людей» через такие сервисы, как Mechanical Turk или Appen. Этот метод хорошо работает для простых задач (например, выделить пешехода на фото), не требующих контекста .
  2. In-house разметка: Привлечение экспертов внутри компании. Главный минус здесь — колоссальные временные затраты. Эксперты (врачи, юристы) слишком дороги и заняты, чтобы тратить недели на ручную монотонную работу .

Моханти подчеркивает, что для специфических задач организации (fine-tuning) внешняя разметка часто бесполезна, так как внешним разметчикам не хватает глубокого корпоративного контекста .

🧩 Технологии «Машинного обучения без учителя» (Machine Teaching) 12:00

Шаян Моханти продвигает термин Machine Teaching (введенный Microsoft Research), который смещает фокус с «ученика» (модели) на «учителя» (человека) . Основная цель — сделать работу эксперта на порядки эффективнее с помощью специальных техник.

Активное обучение (Active Learning) 12:11

Метод основан на «выборке по неопределенности» (uncertainty sampling). Модель обучается на небольшом наборе данных, затем прогоняется через неразмеченный массив. Эксперту показывают только те примеры, в которых модель максимально не уверена . Это позволяет человеку не просматривать миллионы строк, а фокусироваться только на тех точках, которые действительно «двигают стрелку» качества модели .

Слабое обучение (Weak Supervision) 13:28

Вместо того чтобы размечать каждую строку вручную, эксперт создает «функции разметки» (labeling functions) — наборы эвристик и правил.

🚩 Миф о «Ground Truth» и системная предвзятость 39:14

Одним из самых провокационных моментов беседы стал отказ Моханти от термина Ground Truth (наземная/объективная истина) в отношении человеческой разметки. По его утверждению, «истины» в данных крайне мало, так как ручная разметка всегда субъективна .

Почему ручная разметка — это не истина:

⚖️ Где прячется предвзятость (Bias)? 42:00

Собеседники обсудили популярный спор о том, является ли предвзятость ИИ продуктом только лишь данных или же самой архитектуры. Шаян Моханти считает, что предвзятость вездесуща.

Он приводит пример с моделью DistilBERT, которую использовали для анализа настроений . Если фраза содержала упоминание Индии, модель выдавала позитивный окрас, если Германии — негативный.

🚀 Будущее ИИ в бизнесе 34:39

Моханти прогнозирует, что в ближайшие 10 лет каждая компания станет «компанией с ИИ» . Проприетарность и ценность бизнеса будут заключаться не в использовании стандартных моделей (которые становятся товаром широкого потребления), а в уникальном сочетании этих моделей с собственными данными и экспертизой сотрудников .

По мнению гостя, успех перехода к ИИ требует прежде всего смены менталитета: руководители должны перестать стремиться к «идеально точной» ручной разметке и начать внедрять инструменты Machine Teaching, которые позволяют экспертам масштабировать свои знания программным путем .

💬 Цитаты

«Ручная разметка сама по себе шумна... Она по своей природе слаба. Возможно, не так слаба, как функции, но все же слаба в какой-то мере.»

Шаян Моханти 40:35

«ИИ — это код плюс данные. У нас есть надежные способы управления кодом благодаря десятилетиям инноваций, но мы не видели того же на стороне данных.»

Шаян Моханти 50:11
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Data-Centric AI
Подход к разработке ИИ, где основное внимание уделяется систематическому улучшению качества данных, а не алгоритмов.
Ground Truth
Термин, обозначающий абсолютно точные, проверенные данные, используемые для обучения моделей.
Weak Supervision
Метод обучения ИИ с использованием зашумленных или приблизительных источников разметки (эвристик, правил).
Machine Teaching
Методология, фокусирующаяся на инструментах, которые делают процесс передачи знаний от человека к машине более эффективным.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Shayan Mohanty Watchful Data-centric AI Machine Teaching Weak Supervision