Технологический прорыв в области искусственного интеллекта вплотную приблизил машины к возможностям человеческого восприятия, однако вместе с высокой точностью пришли новые фундаментальные вызовы. На мероприятии венчурного фонда a16z представитель Microsoft Research подробно разобрал текущие успехи нейросетей, феномен эмоционального ИИ, а также критические проблемы предвзятости данных и назревшую необходимость создания «объяснимого ИИ». Главный тезис дискуссии заключается в том, что человечество не должно слепо доверять решениям сложных «черных ящиков», способных напрямую влиять на повседневную жизнь и безопасность общества.
🚀 От распознавания образов до «человеческого паритета» 0:00
Современный искусственный интеллект стремительно приближается к так называемому «человеческому паритету» (human parity) в решении целого ряда задач, связанных с восприятием: от компьютерного зрения до распознавания устной речи и обработки естественного языка. Развитие этих технологий демонстрирует экспоненциальный рост эффективности базовых архитектур.
В области распознавания объектов ключевой вехой стало создание глубокой нейросети ResNet, разработанной студентами в пекинской исследовательской лаборатории Microsoft Research. Модификация сети, состоящая из 152 слоев, позволила добиться рекордного показателя точности в 96% на базе данных ImageNet. По оценке спикера, этот результат как минимум не уступает возможностям выпускника Стэнфордского университета, выполняющего аналогичную задачу по классификации и распознаванию изображений.
Аналогичный прорыв зафиксирован и в сфере распознавания речи. При тестировании алгоритмов на стандартном датасете Switchboard, содержащем записи телефонных разговоров, разработчикам удалось снизить уровень ошибок (error rate) до 5,1%. Для сравнения:
- Показатель ошибок у профессиональных стенографистов составляет в среднем 5,2%.
- Уровень ошибок обычного человека в повседневной жизни может достигать 9%.
Спикер иронично заметил, что многие могут не осознавать столь высокий процент собственных ошибок, пока не вернутся домой и не попытаются поговорить со своим супругом.
Параллельно фиксируются успехи в понимании прочитанного текста (на основе стэнфордского датасета SQuAD) и в машинном переводе. В частности, точность двустороннего перевода в паре английский-китайский языки на платформе New Scholars достигла 69,9%. Все эти вехи заложили фундамент для перехода к полноценному разговорному ИИ.
🤖 Эмоциональный интеллект (EQ) и чат-боты в ритейле 2:29
Успехи в базовом восприятии позволили Microsoft развернуть масштабные социальные проекты, главным из которых стал чат-бот Xiaoice, запущенный в Китае и Японии. На текущий момент платформа насчитывает 120 миллионов ежемесячно активных пользователей (MAU). Феномен Xiaoice вышел далеко за рамки привычного ИИ: она ведет 60 телевизионных программ и радиошоу, пишет музыку, поет, сочиняет стихи и даже выпустила собственную книгу, к которой спикер лично написал предисловие. Более того, под псевдонимом Xiaoice успешно защитила магистерскую диссертацию в Центральной академии изящных искусств Китая.
Секрет популярности проекта кроется в изменении парадигмы проектирования. В то время как традиционные цифровые ассистенты развивают исключительно IQ для выполнения утилитарных команд, Xiaoice создавалась с упором на эмоциональный интеллект (EQ) — эмпатию, социальные навыки и понимание человеческих чувств.
Это кардинально меняет метрику удержания аудитории (CPS — количество реплик за одну сессию):
- Обычные цифровые помощники на рынке выдерживают лишь несколько реплик в рамках одной сессии.
- Средний показатель Xiaoice составляет 23 реплики за сессию.
- Самый длинный зафиксированный диалог между реальным пользователем и Xiaoice длился более 29 часов и составил 7000 реплик непрерывного общения.
Бизнес-потенциал систем с высоким EQ был доказан в ходе совместного эксперимента со второй по величине розничной сетью в Японии — Lawson. Разработчики создали Akiko — онлайн-персону бренда Lawson, работающую на технологиях ИИ от Microsoft. Акiko не просто общалась с японскими пользователями, но и проводила опросы, рекомендовала товары и распределяла скидочные купоны.
Результаты эксперимента оказались беспрецедентными для индустрии:
- За 13 часов через систему было распределено 1 миллион купонов.
- Уровень конверсии в реальные покупки внутри магазинов (in-store conversion rate) достиг 40% в течение последующих четырех дней.
Помимо ритейла, подобные технологии автоматизации активно проникают в финансовый сектор. Сегодня алгоритмы Microsoft генерируют порядка 90% всех квартальных финансовых отчетов для китайских компаний.
⚖️ Проблема предвзятости ИИ: когда алгоритмы становятся сексистами 6:10
Обратной стороной использования гигантских объемов данных в моделях глубокого обучения стало проявление системных ошибок. Спикер напомнил о недавнем резонансном инциденте в соцсетях, когда создатель фреймворка Ruby on Rails Давид Хейнемейер Ханссон (DHH) обвинил в предвзятости алгоритм выпуска карт Apple Card, разработанный совместно с Goldman Sachs. По мнению представителя Microsoft, в подобных кредитных системах действительно часто скрывается неосознанная предвзятость (AI bias), требующая прозрачных объяснений алгоритмических решений.
Для демонстрации масштаба проблемы Microsoft совместно с журналистами NPR провела исследование, вылившееся в статью «Он блестящий, она прекрасная: как научить компьютеры быть менее сексистскими». Исследователи обучили систему классификации профессий на базе 27 должностей. Когда в систему загрузили биографию реального филантропа (данной профессии не было в обучающей выборке), алгоритм вполне логично определил человека как «учителя». Однако стоило в тексте заменить местоимения «она/ее» на «он/его», оставив весь остальной контекст неизменным, как ИИ мгновенно переквалифицировал профиль.
Причина подобного искажения кроется в фундаментальном математическом принципе обработки естественного языка — векторном представлении слов (word embedding). В многомерной геометрии смысловые связи строятся на основе близости и параллелизма векторов. К примеру, пары векторов «Apple — Купертино» и «Microsoft — Редмонд» коррелируют между собой так же, как «Стив Джобс» и «Билл Гейтс».
Однако при анализе гендерных векторов на массиве данных, собранных из интернета (в эксперименте использовался открытый датасет Google), обнаружились пугающие закономерности:
- Пропорция «Она — Он» аналогична «Сестра — Брат» (корректно).
- Параллель к слову «Медсестра» со стороны мужского гендера выдает слово «Доктор».
- Слову «Домохозяйка» в мужском векторе противопоставляется «Программист».
- Такие понятия, как «гениальность» (genius) и «блестящий ум» (brilliance), в геометрическом пространстве исходных данных оказались смещены исключительно в сторону мужского гендера.
Поскольку данные собираются из открытой сети, они изначально содержат в себе все исторические и социальные предвзятости человечества. Спикер подчеркнул: если слепо обучать ИИ на неочищенных интернет-данных, мы гарантированно масштабируем дискриминацию. Одним из путей решения, предложенных в отмеченной наградами научной работе Microsoft Research, является принудительное «сплющивание» гендерной вертикальной оси в векторном пространстве, чтобы нейтральные характеристики (например, умственные способности) распределялись между полами строго поровну.
🔍 Борьба с «черным ящиком»: почему нам нужен объяснимый ИИ 12:18
Второй критической проблемой индустрии является отсутствие прозрачности. Современные ИИ-модели оперируют миллионами и даже триллионами параметров, превращаясь для человека в абсолютный «черный ящик» (black box). Спикер выделил три фундаментальные причины, почему ИИ обязан стать объяснимым (Explainable AI):
- Усиление человеческих возможностей (Augmenting human). ИИ — это инструмент. Чтобы эффективно использовать его для расширения потенциала специалистов, человек должен понимать логику его подсказок.
- Доверие и безопасность. Ошибка в рекомендациях фильмов на Netflix безвредна, но алгоритмические решения в сфере политической рекламы в соцсетях, медицинской диагностики или военных операций могут стать фатальными и разрушительными.
- Развитие систем разработчиками. Инженерам необходимо глубоко анализировать («кликнуть дважды») структуру модели, чтобы локализовать ошибку, понять, на каком сегменте данных она произошла и откуда взялась предвзятость.
Вектор развития современных исследований ИИ наглядно иллюстрирует компромисс между точностью и объяснимостью моделей. Традиционная логистическая регрессия проста и понятна человеку, но обладает низкой точностью. Напротив, глубокие нейросети демонстрируют максимальную эффективность, но совершенно не поддаются линейной интерпретации.
Сегодня в мировой науке сформировались два направления решения этой дилеммы:
- Движение снизу вверх: модернизация простых интерпретируемых моделей для повышения их точности. Примером служит разрабатываемая модель GA2M (Generalized Additive Models).
- Движение сверху вниз (наиболее популярное в индустрии): сохранение исходной сложной и точной модели в качестве «черного ящика» с последующей попыткой объяснить ее конкретные локальные решения при помощи внешних математических подходов.
Нынешнее поколение людей — первое в истории, которому предстоит жить бок о бок с искусственным интеллектом. По мнению спикера, коммерческие перспективы технологии безграничны, однако на разработчиках лежит колоссальная социальная ответственность. Общество не должно принимать будущее, в котором ключевые решения принимаются алгоритмами, чью логику человек не способен ни объяснить, ни понять.