Джош Дзиза о разметке данных для нейросетей: «Вам приходится думать как робот»

Популярный миф об искусственном интеллекте рисует картину полностью автономных алгоритмов, однако за кулисами современных технологий скрывается огромная армия людей, вручную обучающих нейросети. В новом выпуске подкаста The Vergecast ведущий Дэвид Пирс вместе с журналистом Джошем Дзизой и экспертом Дженнифер Паттисон Туи обсуждают изнанку индустрии ИИ и затянувшийся кризис концепции «умного дома». Их анализ показывает, что технологический прогресс сегодня зависит не столько от автоматических прорывов, сколько от кропотливого человеческого труда и открытых стандартов совместимости.

🧠 Невидимая армия ИИ: как устроен многомиллиардный рынок разметки данных 1:19

Общепринятое представление о развитии искусственного интеллекта выглядит обманчиво простым: разработчики берут огромный массив данных из интернета, загружают его в большую языковую модель, после чего система внутри условного «черного ящика» обучается сама. Журналист Джош Дзиза в своем расследовании опровергает этот миф, заявляя, что человеческое участие в этом процессе носит массовый и непрерывный характер. Модели ИИ по своей природе остаются крайне хрупкими: они отлично справляются с узкими задачами, но моментально ломаются, сталкиваясь с данными, которых не было в обучающей выборке.

Истоки этой индустрии уходят в 2007 год, когда исследовательница Фей-Фей Ли из Принстонского университета осознала, что для качественного распознавания образов нейросетям требуются миллионы размеченных изображений вместо тысяч. Для категоризации этого беспрецедентного массива данных была использована краудсорсинговая платформа Amazon Mechanical Turk, где люди со всего мира за центы вручную подписывали картинки («кошка», «самолет», «автомобиль»). Этот проект, получивший название ImageNet, фактически запустил современную революцию в машинном обучении.

По мнению Дзизы, сегодняшний рынок разметки данных превратился в глубоко закрытую, многомиллиардную и во многом сомнительную индустрию, напоминающую сеть офшорных шелл-компаний. Крупнейшие игроки, такие как Scale AI, позиционируют своих сотрудников как высококвалифицированных экспертов, качество работы которых проверяется автоматизированными системами. При этом компании стремятся избегать публичности. Например, Scale AI управляет своей платформой разметчиков под брендом Remotasks, не афишируя связь между структурами.

Все внутренние проекты шифруются странными кодовыми названиями вроде «pillbox» или «bratwurst», чтобы исполнители не понимали, на какого заказчика они работают. Джош Дзиза отмечает, что в технологическом секторе долгое время доминировал взгляд на ручную разметку как на временный промежуточный этап перед полной автоматизацией, однако, по его оценке, этот подход ошибочен — потребность в людях будет только расти.

🛠️ Будни разметчика данных: каково это — думать как робот 10:34

Характер работы разметчиков данных зависит от конкретной специализации. Классическая разметка для беспилотных автомобилей включает покадровый разбор видео или облаков точек лазерного сканирования (лидара), где нужно вручную обводить пожарные гидранты или пешеходов. Обучение чат-ботов больше напоминает сдачу стандартизированного теста: человеку дают текст и два варианта его краткого изложения, а он должен аргументированно выбрать лучший, переписать его или проверить маркетинговый текст на наличие выдуманных фактов.

Эта деятельность требует экстремальной, изнуряющей точности. По словам Дзизы, разметка всего нескольких секунд видео с лидара для автомобильных систем может занимать у специалиста полноценный 8-часовой рабочий день. Сам журналист во время эксперимента на платформе Remotasks регулярно проваливал тестовые задания: например, при разметке паллет для автономного погрузчика ошибка всего в один пиксель на размытом фото из темного склада приводила к незачету.

Главная сложность работы заключается в том, что разметчику приходится перестраивать свое мышление под нечеловеческую, алгоритмическую логику. Джош Дзиза выделил несколько парадоксальных правил из внутренних 40-страничных инструкций, с которыми ему пришлось столкнуться:

Необходимо выделять одежду на людях в социальных сетях, но только если она «настоящая». При этом одежда на моделях в журналах или отражениях в зеркалах считается настоящей, так как ИИ видит лишь пиксели.
Запрещено размечать одежду на игрушечных фигурках, но обязательно нужно размечать ее на манекенах.
Следует маркировать карнавальные костюмы, но нельзя маркировать боевую броню, что создает серые зоны при оценке костюмов персонажей вроде штурмовиков из «Звездных войн».

В случае регулярных ошибок платформа Remotasks мгновенно отстраняет пользователя. Дзиза вспоминает, что после очередного провала система выдала ему унизительное всплывающее окно с анимированным крабом («crab generation»), сообщившее об исключении из проекта из-за низкого качества. После этого его перевели на оценку эмоциональной стабильности и общительности людей на видеороликах, критерии которой кажутся журналисту совершенно субъективными и не поддающимися точной квантификации.

📉 Экономика кликов: нестабильность, низкие зарплаты и «испорченный телефон» 19:56

Основной поток жалоб со стороны сотен тысяч работников индустрии связан с падением доходов и нестабильностью. На заре существования Remotasks в 2018–2019 годах платформа предлагала хорошие по локальным меркам условия — около $10 в час. Однако по мере притока пользователей тарифы скорректировали с учетом региональной стоимости жизни, в результате чего заработок в странах Глобального Юга упал до $1–$3 в час. Работа носит пиковый характер: инженеры требуют обработать огромный массив данных в кратчайшие сроки, после чего наступают недели полного затишья, вынуждающие людей постоянно караулить новые задачи.

Параллельно формируется высокооплачиваемый сегмент экспертной разметки, сосредоточенный в США, где востребованы носители языка со специфическим культурным контекстом, юристы, физики и медики, способные верифицировать ответы ИИ в высокорисковых зонах. Их ставка доходит до $20–$40 в час.

Дзиза проводит аналогию между текущим состоянием ИИ и поисковиком Ask Jeeves из ранних 2000-х годов. Популярный сервис казался пользователям технологическим чудом, но на деле полагался на команду штатных редакторов, вручную отвечавших на топовые запросы — система работала отлично на короткой дистанции, но принципиально не могла масштабироваться на бесконечный массив уникальных вопросов.

Еще одной системной проблемой рынка остается феномен «испорченного телефона» между разработчиками и разметчиками данных. В качестве примера Дзиза приводит задачу по маркировке редких дорожных препятствий, где правила менялись несколько раз в день: инженеры сначала требовали размечать регулировщиков, затем запрещали делать это, если те обедают на тротуаре, а дорожные конусы предписывали выделять только в случае, если они физически блокируют проезд. Сам журналист был навсегда заблокирован системой Remotasks за использование VPN-сервиса, что подвело итог под его карьерой разметчика. Для исправления хаоса в индустрии, по мнению Дзизы, необходимы строгие международные регуляторные требования к прозрачности цепочек поставок данных, аналогичные правилам в здравоохранении.

🏠 Крах «умного дома»: почему концепция нуждается в перезагрузке 34:52

Во второй части выпуска ведущий Дэвид Пирс и старший редактор The Verge Дженнифер Паттисон Туи обратились к кризису на рынке потребительских систем автоматизации жилья. По мнению Туи, сам термин «умный дом» является фундаментальной маркетинговой ошибкой, пугающей потребителей. В действительности речь идет об обычной эволюции жилого пространства — такой же, как исторический переход от свечного освещения к электрическому.

Эксперты сходятся во мнении, что покупка всех доступных гаджетов разом — это худшая стратегия для обывателя. Рациональный подход подразумевает точечное решение возникающих бытовых проблем: покупку умного термостата ради экономии на отоплении или смарт-замка, если члены семьи постоянно теряют ключи. Дженнифер Туи отмечает, что потребность в создании комплексных автоматизированных сценариев обычно возникает при достижении «критической массы» устройств или при изменении жизненных обстоятельств:

Появление детей или необходимость ухода за пожилыми родственниками.
Переход на удаленную работу (например, редактор Дэн Сайферт настроил автоматическое включение красной лампы «Не беспокоить» за дверью кабинета при запуске звонка в Zoom).
Стремление к оптимизации расходов на электроэнергию. В Калифорнии уже строятся экспериментальные экологические кварталы с умными электрическими панелями, солнечными батареями и улучшенной теплоизоляцией, минимизирующей энергопотребление.

Обратной стороной самостоятельного построения умного дома становится то, что пользователь невольно превращается в системного администратора собственного жилья. Когда отлаженные сценарии внезапно перестают работать, владельцу приходится тратить выходные на выяснение причин, почему не включился умный спринклер и завяли цветы. Избежать этого помогают профессиональные компании-интеграторы, однако их услуги требуют значительных финансовых затрат.

🔌 Четыре гиганта и стандарт Matter: как выбрать экосистему 49:36

Для пользователей, решивших построить комплексную систему, рынок предлагает четыре базовые платформы: Apple Home, Google Home, Samsung SmartThings и Amazon Alexa, а также открытую систему Home Assistant, пользующуюся популярностью в среде энтузиастов. Простейшее правило выбора платформы — ориентация на марку смартфона и уже имеющиеся устройства, поскольку экосистемы жестко оптимизированы под свои ОС (SmartThings под линейку Samsung Galaxy, Google Home под Pixel, Apple Home исключительно под iPhone). Единственным кросс-платформенным решением остается Amazon Alexa, эффективно работающая с любыми устройствами.

Главные технологические различия между ключевыми платформами, по словам Дженнифер Туи, заключаются в их базовой философии и функционале:

Apple Home делает ставку на абсолютную приватность и скорость работы. Все данные и видеопотоки обрабатываются локально на домашнем хабе без отправки в облако, что обеспечивает моментальный отклик устройств, сопоставимый со щелчком обычного выключателя. Историческим минусом платформы была высокая стоимость совместимых устройств из-за жестких требований лицензирования.
Amazon Alexa предлагает экосистему с огромным выбором дешевых гаджетов и развитыми алгоритмами ИИ. Функция «Hunches» («Предчувствия») анализирует поведение пользователя и способна, например, предупредить перед сном, что входная дверь осталась незапертой. Обратная сторона — полная передача данных о внутридомовой активности в облако Amazon.
Samsung SmartThings лидирует в области интеграции с крупной бытовой техникой собственного производства и предлагает лучшие инструменты для контроля расхода ресурсов и энергоменеджмента.
Google Home выделяется качественной аппаратной линейкой Nest и самым продвинутым голосовым ассистентом Google Assistant. Ключевым преимуществом платформы Туи считает функцию «Presence Sensing» (определение присутствия): система использует датчики дыма Nest Protect и умные колонки для фиксации людей в доме, в то время как конкуренты полагаются на ненадежную геолокацию smartphones, часто сбоящую в зонах плохого приема связи.

Индустрия связывает свое будущее с новым единым стандартом совместимости Matter, призванным уничтожить барьеры между закрытыми экосистемами. Благодаря функции Multi-admin, устройство с логотипом Matter может одновременно управляться из приложений Apple, Google и Amazon. Тем не менее, стандарт находится в зачаточном состоянии. Дженнифер Туи констатирует, что сейчас Matter вступил в сложную «политическую стадию», когда производители электроники начали проявлять осторожность и притормаживать интеграцию из-за опасений за собственную маржинальность, хотя конечные потребители требуют повсеместного внедрения протокола.

👁️ Будущее за пределами экранов: от гарнитур к умным контактным линзам 1:03:15

В финальной части программы ведущий Дэвид Пирс ответил на вопрос слушателя из Нью-Джерси, касающийся долгосрочной эволюции устройств дополненной реальности (AR) после выхода гарнитуры Apple Vision Pro. Слушатель предположил, что конечной точкой миниатюризации носимой электроники станут умные контактные линзы, способные полностью проецировать виртуальный интерфейс на сетчатку глаза и заменяющие громоздкие шлемы.

Пирс согласился с тем, что в лабораториях и на досках планирования многих технологических гигантов слово «линзы» действительно обведено в качестве финального ориентира развития AR-направления. Однако, по мнению ведущего, физическая реализация подобного гаджета находится на расстоянии колоссального технологического разрыва от текущих возможностей человечества.

Для создания коммерческих умных линз инженерам предстоит совершить серию фундаментальных научных открытий. Ключевыми барьерами Пирс назвал микроскопическое энергопотребление, уменьшение чипов на несколько порядков и проблему тепловыделения — размещение нагревающегося под нагрузкой полупроводникового кристалла непосредственно на глазном яблоке на текущий момент абсолютно неосуществимо. По оценке автора, в ближайшие десятилетия идея полностью упакованного AR-интерфейса в формате контактной линзы останется исключительно элементом научной фантастики.