Шаян Моханти: «Ground Truth не существует, а ручная разметка всегда предвзята»

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Шаяном Моханти, генеральным директором компании Watchful, о фундаментальном сдвиге в индустрии искусственного интеллекта. Они обсуждают концепцию «data-centric AI» (ИИ, ориентированный на данные), критикуют устоявшееся понятие «ground truth» (объективная истина) и объясняют, почему будущее машинного обучения зависит не от совершенствования алгоритмов, а от эффективности учителей.

🤖 От моделей к данным: смена парадигмы в ИИ 0:26

Современный этап развития искусственного интеллекта характеризуется переходом от «моделе-центричного» подхода к «данно-центричному» . По словам Шаяна Моханти, долгое время индустрия была сосредоточена на создании всё более сложных архитектур нейросетей, однако сейчас машинное обучение подошло к моменту, когда код и архитектуры моделей стали в значительной степени развитыми и доступными.

Ключевые тезисы этой смены парадигмы:

Код как константа: В рамках data-centric AI код (архитектура модели) считается условно статичным, а основной итерационный процесс происходит вокруг данных .
Главное препятствие: Моханти утверждает, что основной барьер для внедрения ИИ в организациях — это не отсутствие нужных алгоритмов, а сложность получения качественных размеченных данных .
Доступность инструментов: Благодаря фреймворкам вроде PyTorch и Keras, создание сложных нейронных архитектур превратилось в рутинную задачу .

🏷️ Проблема традиционной разметки данных 2:38

Существует два основных способа разметки данных, и оба, по мнению гостя, имеют серьезные недостатки.

Краудсорсинг (Crowd labeling): Использование «армии людей» через такие сервисы, как Mechanical Turk или Appen. Этот метод хорошо работает для простых задач (например, выделить пешехода на фото), не требующих контекста .
In-house разметка: Привлечение экспертов внутри компании. Главный минус здесь — колоссальные временные затраты. Эксперты (врачи, юристы) слишком дороги и заняты, чтобы тратить недели на ручную монотонную работу .

Моханти подчеркивает, что для специфических задач организации (fine-tuning) внешняя разметка часто бесполезна, так как внешним разметчикам не хватает глубокого корпоративного контекста .

🧩 Технологии «Машинного обучения без учителя» (Machine Teaching) 12:00

Шаян Моханти продвигает термин Machine Teaching (введенный Microsoft Research), который смещает фокус с «ученика» (модели) на «учителя» (человека) . Основная цель — сделать работу эксперта на порядки эффективнее с помощью специальных техник.

Активное обучение (Active Learning) 12:11

Метод основан на «выборке по неопределенности» (uncertainty sampling). Модель обучается на небольшом наборе данных, затем прогоняется через неразмеченный массив. Эксперту показывают только те примеры, в которых модель максимально не уверена . Это позволяет человеку не просматривать миллионы строк, а фокусироваться только на тех точках, которые действительно «двигают стрелку» качества модели .

Слабое обучение (Weak Supervision) 13:28

Вместо того чтобы размечать каждую строку вручную, эксперт создает «функции разметки» (labeling functions) — наборы эвристик и правил.

Пример: Если в тексте письма есть слово «кредитная карта», функция помечает его как категорию «Платежи» .
Шаян отмечает, что такие правила могут быть шумными и неточными, но система учитывает их вероятностный характер . Это позволяет мгновенно разметить миллионы строк данных, используя лишь несколько часов работы эксперта .

🚩 Миф о «Ground Truth» и системная предвзятость 39:14

Одним из самых провокационных моментов беседы стал отказ Моханти от термина Ground Truth (наземная/объективная истина) в отношении человеческой разметки. По его утверждению, «истины» в данных крайне мало, так как ручная разметка всегда субъективна .

Почему ручная разметка — это не истина:

Субъективность: У разных разметчиков разное понимание таких категорий, как «токсичность» или «сарказм». Если из 10 человек семеро считают сообщение токсичным, а трое — нет, это не значит, что трое ошиблись. Это значит, что само понятие субъективно .
Шум и ошибки: Люди устают, ошибаются и привносят свои когнитивные искажения в данные .
Вероятностный подход: В системе Watchful метки изначально вероятностны (например, 70% уверенности в категории), что позволяет модели лучше улавливать нюансы реальности, чем жесткие нули и единицы .

⚖️ Где прячется предвзятость (Bias)? 42:00

Собеседники обсудили популярный спор о том, является ли предвзятость ИИ продуктом только лишь данных или же самой архитектуры. Шаян Моханти считает, что предвзятость вездесуща.

Он приводит пример с моделью DistilBERT, которую использовали для анализа настроений . Если фраза содержала упоминание Индии, модель выдавала позитивный окрас, если Германии — негативный.

Причина в данных: Модель обучалась на интернет-текстах, где Германия часто упоминается в контексте Второй мировой войны .
Причина в архитектуре: Система анализа настроений часто не имеет категории «нейтрально». Она обязана выбрать либо «плюс», либо «минус», что само по себе является архитектурным искажением .

🚀 Будущее ИИ в бизнесе 34:39

Моханти прогнозирует, что в ближайшие 10 лет каждая компания станет «компанией с ИИ» . Проприетарность и ценность бизнеса будут заключаться не в использовании стандартных моделей (которые становятся товаром широкого потребления), а в уникальном сочетании этих моделей с собственными данными и экспертизой сотрудников .

По мнению гостя, успех перехода к ИИ требует прежде всего смены менталитета: руководители должны перестать стремиться к «идеально точной» ручной разметке и начать внедрять инструменты Machine Teaching, которые позволяют экспертам масштабировать свои знания программным путем .