В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Шаяном Моханти, генеральным директором компании Watchful, о фундаментальном сдвиге в индустрии искусственного интеллекта. Они обсуждают концепцию «data-centric AI» (ИИ, ориентированный на данные), критикуют устоявшееся понятие «ground truth» (объективная истина) и объясняют, почему будущее машинного обучения зависит не от совершенствования алгоритмов, а от эффективности учителей.
🤖 От моделей к данным: смена парадигмы в ИИ 0:26
Современный этап развития искусственного интеллекта характеризуется переходом от «моделе-центричного» подхода к «данно-центричному» . По словам Шаяна Моханти, долгое время индустрия была сосредоточена на создании всё более сложных архитектур нейросетей, однако сейчас машинное обучение подошло к моменту, когда код и архитектуры моделей стали в значительной степени развитыми и доступными.
Ключевые тезисы этой смены парадигмы:
- Код как константа: В рамках data-centric AI код (архитектура модели) считается условно статичным, а основной итерационный процесс происходит вокруг данных .
- Главное препятствие: Моханти утверждает, что основной барьер для внедрения ИИ в организациях — это не отсутствие нужных алгоритмов, а сложность получения качественных размеченных данных .
- Доступность инструментов: Благодаря фреймворкам вроде PyTorch и Keras, создание сложных нейронных архитектур превратилось в рутинную задачу .
🏷️ Проблема традиционной разметки данных 2:38
Существует два основных способа разметки данных, и оба, по мнению гостя, имеют серьезные недостатки.
- Краудсорсинг (Crowd labeling): Использование «армии людей» через такие сервисы, как Mechanical Turk или Appen. Этот метод хорошо работает для простых задач (например, выделить пешехода на фото), не требующих контекста .
- In-house разметка: Привлечение экспертов внутри компании. Главный минус здесь — колоссальные временные затраты. Эксперты (врачи, юристы) слишком дороги и заняты, чтобы тратить недели на ручную монотонную работу .
Моханти подчеркивает, что для специфических задач организации (fine-tuning) внешняя разметка часто бесполезна, так как внешним разметчикам не хватает глубокого корпоративного контекста .
🧩 Технологии «Машинного обучения без учителя» (Machine Teaching) 12:00
Шаян Моханти продвигает термин Machine Teaching (введенный Microsoft Research), который смещает фокус с «ученика» (модели) на «учителя» (человека) . Основная цель — сделать работу эксперта на порядки эффективнее с помощью специальных техник.
Активное обучение (Active Learning) 12:11
Метод основан на «выборке по неопределенности» (uncertainty sampling). Модель обучается на небольшом наборе данных, затем прогоняется через неразмеченный массив. Эксперту показывают только те примеры, в которых модель максимально не уверена . Это позволяет человеку не просматривать миллионы строк, а фокусироваться только на тех точках, которые действительно «двигают стрелку» качества модели .
Слабое обучение (Weak Supervision) 13:28
Вместо того чтобы размечать каждую строку вручную, эксперт создает «функции разметки» (labeling functions) — наборы эвристик и правил.
- Пример: Если в тексте письма есть слово «кредитная карта», функция помечает его как категорию «Платежи» .
- Шаян отмечает, что такие правила могут быть шумными и неточными, но система учитывает их вероятностный характер . Это позволяет мгновенно разметить миллионы строк данных, используя лишь несколько часов работы эксперта .
🚩 Миф о «Ground Truth» и системная предвзятость 39:14
Одним из самых провокационных моментов беседы стал отказ Моханти от термина Ground Truth (наземная/объективная истина) в отношении человеческой разметки. По его утверждению, «истины» в данных крайне мало, так как ручная разметка всегда субъективна .
Почему ручная разметка — это не истина:
- Субъективность: У разных разметчиков разное понимание таких категорий, как «токсичность» или «сарказм». Если из 10 человек семеро считают сообщение токсичным, а трое — нет, это не значит, что трое ошиблись. Это значит, что само понятие субъективно .
- Шум и ошибки: Люди устают, ошибаются и привносят свои когнитивные искажения в данные .
- Вероятностный подход: В системе Watchful метки изначально вероятностны (например, 70% уверенности в категории), что позволяет модели лучше улавливать нюансы реальности, чем жесткие нули и единицы .
⚖️ Где прячется предвзятость (Bias)? 42:00
Собеседники обсудили популярный спор о том, является ли предвзятость ИИ продуктом только лишь данных или же самой архитектуры. Шаян Моханти считает, что предвзятость вездесуща.
Он приводит пример с моделью DistilBERT, которую использовали для анализа настроений . Если фраза содержала упоминание Индии, модель выдавала позитивный окрас, если Германии — негативный.
- Причина в данных: Модель обучалась на интернет-текстах, где Германия часто упоминается в контексте Второй мировой войны .
- Причина в архитектуре: Система анализа настроений часто не имеет категории «нейтрально». Она обязана выбрать либо «плюс», либо «минус», что само по себе является архитектурным искажением .
🚀 Будущее ИИ в бизнесе 34:39
Моханти прогнозирует, что в ближайшие 10 лет каждая компания станет «компанией с ИИ» . Проприетарность и ценность бизнеса будут заключаться не в использовании стандартных моделей (которые становятся товаром широкого потребления), а в уникальном сочетании этих моделей с собственными данными и экспертизой сотрудников .
По мнению гостя, успех перехода к ИИ требует прежде всего смены менталитета: руководители должны перестать стремиться к «идеально точной» ручной разметке и начать внедрять инструменты Machine Teaching, которые позволяют экспертам масштабировать свои знания программным путем .