# Шаян Моханти: «Ground Truth не существует, а ручная разметка всегда предвзята»

Источник: https://www.youtube.com/watch?v=Y7orR8y5B0Q
Канал: The TWIML AI Podcast
Опубликовано: 30.05.2022

---

В новом выпуске подкаста **The TWIML AI Podcast** ведущий Сэм Чаррингтон беседует с Шаяном Моханти, генеральным директором компании Watchful, о фундаментальном сдвиге в индустрии искусственного интеллекта. Они обсуждают концепцию «data-centric AI» (ИИ, ориентированный на данные), критикуют устоявшееся понятие «ground truth» (объективная истина) и объясняют, почему будущее машинного обучения зависит не от совершенствования алгоритмов, а от эффективности учителей.

## 🤖 От моделей к данным: смена парадигмы в ИИ
[[JUMP:00:26]]

Современный этап развития искусственного интеллекта характеризуется переходом от «моделе-центричного» подхода к «данно-центричному» [02:23]. По словам Шаяна Моханти, долгое время индустрия была сосредоточена на создании всё более сложных архитектур нейросетей, однако сейчас машинное обучение подошло к моменту, когда код и архитектуры моделей стали в значительной степени развитыми и доступными.

**Ключевые тезисы этой смены парадигмы:**

*   **Код как константа:** В рамках data-centric AI код (архитектура модели) считается условно статичным, а основной итерационный процесс происходит вокруг данных [31:10].
*   **Главное препятствие:** Моханти утверждает, что основной барьер для внедрения ИИ в организациях — это не отсутствие нужных алгоритмов, а сложность получения качественных размеченных данных [01:44].
*   **Доступность инструментов:** Благодаря фреймворкам вроде PyTorch и Keras, создание сложных нейронных архитектур превратилось в рутинную задачу [31:22].

## 🏷️ Проблема традиционной разметки данных
[[JUMP:02:38]]

Существует два основных способа разметки данных, и оба, по мнению гостя, имеют серьезные недостатки.

1.  **Краудсорсинг (Crowd labeling):** Использование «армии людей» через такие сервисы, как Mechanical Turk или Appen. Этот метод хорошо работает для простых задач (например, выделить пешехода на фото), не требующих контекста [03:05].
2.  **In-house разметка:** Привлечение экспертов внутри компании. Главный минус здесь — колоссальные временные затраты. Эксперты (врачи, юристы) слишком дороги и заняты, чтобы тратить недели на ручную монотонную работу [06:55].

Моханти подчеркивает, что для специфических задач организации (fine-tuning) внешняя разметка часто бесполезна, так как внешним разметчикам не хватает глубокого корпоративного контекста [05:50].

## 🧩 Технологии «Машинного обучения без учителя» (Machine Teaching)
[[JUMP:12:00]]

Шаян Моханти продвигает термин **Machine Teaching** (введенный Microsoft Research), который смещает фокус с «ученика» (модели) на «учителя» (человека) [26:46]. Основная цель — сделать работу эксперта на порядки эффективнее с помощью специальных техник.

### Активное обучение (Active Learning)
[[JUMP:12:11]]

Метод основан на «выборке по неопределенности» (uncertainty sampling). Модель обучается на небольшом наборе данных, затем прогоняется через неразмеченный массив. Эксперту показывают только те примеры, в которых модель максимально не уверена [12:36]. Это позволяет человеку не просматривать миллионы строк, а фокусироваться только на тех точках, которые действительно «двигают стрелку» качества модели [12:50].

### Слабое обучение (Weak Supervision)
[[JUMP:13:28]]

Вместо того чтобы размечать каждую строку вручную, эксперт создает «функции разметки» (labeling functions) — наборы эвристик и правил.

*   **Пример:** Если в тексте письма есть слово «кредитная карта», функция помечает его как категорию «Платежи» [14:09].
*   Шаян отмечает, что такие правила могут быть шумными и неточными, но система учитывает их вероятностный характер [19:06]. Это позволяет мгновенно разметить миллионы строк данных, используя лишь несколько часов работы эксперта [15:25].

## 🚩 Миф о «Ground Truth» и системная предвзятость
[[JUMP:39:14]]

Одним из самых провокационных моментов беседы стал отказ Моханти от термина **Ground Truth** (наземная/объективная истина) в отношении человеческой разметки. По его утверждению, «истины» в данных крайне мало, так как ручная разметка всегда субъективна [39:29].

**Почему ручная разметка — это не истина:**

*   **Субъективность:** У разных разметчиков разное понимание таких категорий, как «токсичность» или «сарказм». Если из 10 человек семеро считают сообщение токсичным, а трое — нет, это не значит, что трое ошиблись. Это значит, что само понятие субъективно [45:50].
*   **Шум и ошибки:** Люди устают, ошибаются и привносят свои когнитивные искажения в данные [40:35].
*   **Вероятностный подход:** В системе Watchful метки изначально вероятностны (например, 70% уверенности в категории), что позволяет модели лучше улавливать нюансы реальности, чем жесткие нули и единицы [48:35].

## ⚖️ Где прячется предвзятость (Bias)?
[[JUMP:42:00]]

Собеседники обсудили популярный спор о том, является ли предвзятость ИИ продуктом только лишь данных или же самой архитектуры. Шаян Моханти считает, что предвзятость вездесуща.

Он приводит пример с моделью **DistilBERT**, которую использовали для анализа настроений [42:00]. Если фраза содержала упоминание Индии, модель выдавала позитивный окрас, если Германии — негативный.

*   **Причина в данных:** Модель обучалась на интернет-текстах, где Германия часто упоминается в контексте Второй мировой войны [42:21].
*   **Причина в архитектуре:** Система анализа настроений часто не имеет категории «нейтрально». Она обязана выбрать либо «плюс», либо «минус», что само по себе является архитектурным искажением [42:33].

## 🚀 Будущее ИИ в бизнесе
[[JUMP:34:39]]

Моханти прогнозирует, что в ближайшие 10 лет каждая компания станет «компанией с ИИ» [34:39]. Проприетарность и ценность бизнеса будут заключаться не в использовании стандартных моделей (которые становятся товаром широкого потребления), а в уникальном сочетании этих моделей с собственными данными и экспертизой сотрудников [38:21].

По мнению гостя, успех перехода к ИИ требует прежде всего смены менталитета: руководители должны перестать стремиться к «идеально точной» ручной разметке и начать внедрять инструменты Machine Teaching, которые позволяют экспертам масштабировать свои знания программным путем [29:00].