В новом выпуске подкаста «The Cognitive Revolution» ведущий Нейтан Лабенц обсуждает с Аланом Коуэном, генеральным директором и главным научным сотрудником Hume AI, концепцию создания эмоционально ориентированного искусственного интеллекта. Алан Коуэн делится историей создания своей исследовательской лаборатории, которая ставит своей целью научить ИИ делать людей счастливыми и обеспечивать долгосрочное процветание человека. Представленный материал подробно разбирает научный и предпринимательский путь основателя стартапа от фундаментальных исследований эмоций до разработки коммерческого мультимодального API.
🧬 Истоки: От фундаментальной науки к пониманию эмоционального пространства 4:10
Алан Коуэн посвятил много лет академическому изучению человеческих эмоций, опубликовав в этой сфере около 40 научных работ. В ходе своей исследовательской деятельности он представил новую концепцию измерения эмоций, получившую название «теория семантического пространства» (Semantic Space Theory). Наставником его научного руководителя был знаменитый Пол Экман — один из главных пионеров науки об эмоциях.
В процессе работы ученый пришел к выводу, что эмоции являются неотъемлемым и важнейшим компонентом любого человеческого взаимодействия, будь то общение между людьми или диалог человека с искусственным интеллектом. Каждое произнесенное слово несет в себе определенный тон, содержащий множество поддающихся считыванию измерений. Понимание этого факта легло в основу создания Hume AI — исследовательской лаборатории и технологической компании, миссия которой сегодня официально формулируется как «обучение ИИ делать людей счастливыми». Полноценное измерение и оптимизация человеческого благополучия, как отмечает Алан Коуэн, представляет собой грандиозный вызов для всей истории человечества, приобретающий особое значение в эпоху развития систем искусственного интеллекта.
🔄 Переломные моменты: Рождение мультимодального подхода и уход от текстоцентричности 8:51
Традиционные языковые модели работают исключительно с текстом, однако текст, по образному выражению Коуэна, представляет собой лишь «обезвоженную» версию того, что произошло в реальности. По его мнению, добавление визуальных, аудио- и видеоданных открывает колоссальные возможности для интерпретации происходящего. Переломным моментом для Hume AI стало создание комплексной мультимодальной системы, способной одновременно анализировать различные каналы выражения эмоций.
Разработанная платформа способна ежесекундно извлекать сотни измерений данных по нескольким ключевым направлениям:
- Речевая просодия (speech prosody) — оценивает интонацию, ритм и тембр человеческой речи.
- Вокальные взрывы (vocal bursts) — анализирует невербальные звуковые проявления, такие как смех, вздохи, крики, стоны и междометия.
- Выражения лица (facial expressions) — фиксирует движения отдельных мимических мышц лица и оценивает их холистически.
Для демонстрации эффективности такого подхода Коуэн приводит пример с контролем состояния водителя за рулем. Если полагаться исключительно на текстовую модель, определить сонливость человека невозможно, поскольку засыпающий водитель обычно молчит. Однако добавление инструментов анализа мимики и голоса позволяет с точностью более 90% распознать критическую усталость человека даже при открытых глазах. Подобная мультимодальность существенно повышает точность прогнозирования человеческих предпочтений, исходов взаимодействий и ментального здоровья по сравнению с анализом чистого текста.
⚠️ Ошибки в индустрии: Иллюзия «объективного» кодирования мимики 20:03
Долгое время в мировой науке доминировал подход Пола Экмана, создавшего «Систему кодирования лицевых движений» (Facial Action Coding System — FACS). Эта система претендовала на объективную фиксацию движений отдельных мышц лица человека. Чтобы освоить FACS, специалистам требовалось проходить интенсивное обучение в течение двух недель по восемь часов ежедневно.
Однако Алан Коуэн считает этот подход концептуальной ошибкой и тупиком, с которым столкнулась индустрия. По его словам, на практике система FACS оказалась сильнее подвержена влиянию возраста человека и направления его взгляда, нежели реальному человеческому восприятию эмоций. Попытки создать промежуточное «объективное» описание анатомических сокращений лица вместо прямого перехода к эмоциональным ярлыкам оказались неэффективными.
Коуэн объясняет это эволюционными причинами:
- Человеческий вид в процессе эволюции никогда не был заинтересован в анатомической структуре движения мышц собеседника.
- Людей всегда интересовали исключительно social inferences (социальные выводы) — намерения, предпочтения и внутренние состояния контрагента.
- Мозг человека обладает врожденной способностью мгновенно улавливать тончайшие нюансы мимики, которые невозможно формализовать через простое перечисление задействованных мышц.
Осознав эту ошибку предшественников, команда Hume AI отказалась от создания жестких анатомических классификаторов. Вместо этого они начали собирать огромные массивы данных, фиксируя непосредственные человеческие суждения о смысле тех или иных выражений.
🎓 Уроки: Биологическая универсальность и управление культурным контекстом 31:25
Главный урок, который команда Hume AI извлекла в процессе масштабного сбора данных, заключается в существовании глубинного биологического базиса человеческих эмоций. Проводя опросы в десятках стран, исследователи обнаружили, что около 80% вариативности эмоциональных проявлений сохраняются неизменными независимо от географии и культуры.
Ярким подтверждением этой гипотезы стало уникальное исследование древних скульптур, созданных в доколумбовой Америке. У этих цивилизаций отсутствовал какой-либо культурный контакт с европейскими народами. Тем не менее, когда современные люди из совершенно разных культур смотрят на изолированные лица этих скульптур, они безошибочно узнают на них выражение боли (например, в сценах пыток). Аналогичные совпадения прослеживаются при анализе древнеегипетских иероглифов, запечатлевших плакальщиц на похоронах: древние ритуалы оказались поразительно похожи на этнографические описания обрядов коренных американцев.
Тем не менее, важным практическим уроком для стартапа стало понимание роли культурных норм (дисплеев правил), которые могут серьезно искажать интерпретацию данных, если их не контролировать:
- Жители США значительно чаще и охотнее демонстрируют высоковозбужденные позитивные эмоции — например, широкие открытые улыбки.
- В Восточной Азии или Великобритании подобные открытые проявления радости встречаются существенно реже.
- Записи разговоров в службах клиентской поддержки звучат совершенно по-разному в зависимости от региона.
- В одних культурах гнев выражается открыто, тогда как в других преувеличенный позитив может маскировать неискренность.
Из-за этих нюансов, как подчеркивает Коуэн, прямолинейный глобальный классификатор может совершать грубые ошибки. Именно этот урок привел Hume AI к необходимости разработки кастомных моделей (custom models), адаптированных под специфические культурные и корпоративные контексты.
🚀 Текущий этап: Платформа автоматизированного анализа и будущее ИИ-выравнивания 49:31
На текущем этапе Hume AI представляет собой развитую платформу для разработчиков, предлагающую полностью автоматизированный инструмент создания эмоциональных моделей. Клиентам больше не нужно обладать штатом дата-сайентистов — достаточно загрузить свои аудио-, видео- или текстовые файлы вместе с целевыми метками (labels). Система самостоятельно проводит кросс-валидацию и предоставляет готовый к развертыванию API-эндпоинт.
Технологии компании уже находят применение в широком спектре индустрий:
- Медицина и клинические исследования: совместные проекты позволяют отслеживать динамику симптомов депрессии по коротким видеодневникам пациентов, что оказывается эффективнее редких визитов к врачу.
- Бизнес и клиентский сервис: автоматический анализ миллионов звонков в техподдержку помогает оценивать удовлетворенность клиентов, выявлять скрытое раздражение и предотвращать отток пользователей.
- Образование: алгоритмы способны фиксировать отвлечение внимания студентов во время лекций, помогая адаптивным системам предлагать повторение пропущенного материала.
Ценовая политика платформы делает эти инструменты доступными для бизнеса любого масштаба: минута обработки аудио или видео стоит всего 2.76 цента (что эквивалентно $1.66 за час работы). При этом сам кастомный API для обучения моделей предоставляется пользователям бесплатно, тарифицируется лишь стандартное процессорное время базовых моделей.
Разработчики Hume AI не пытаются конкурировать с создателями крупнейших языковых моделей (таких как GPT-4V или Gemini), а встраивают свои решения поверх них. Компания осуществляет дополнительное предобучение моделей на десятках миллиардов токенов, перекладывая эмоциональные проявления в новые, уникальные токены общего контекста.
Алан Коуэн критически оценивает популярный сегодня метод обучения моделей с подкреплением на основе отзывов людей (RLHF), утверждая, что этот подход принципиально не масштабируется. Вместо ручной разметки Hume AI предлагает использовать естественные мимические и вокальные реакции пользователей в качестве неявной обратной связи (implicit feedback) для непрерывного обучения ИИ «на рабочем месте».
Взгляды Коуэна на долгосрочную безопасность искусственного интеллекта тесно связаны с концепцией эмоционального выравнивания (alignment). По его мнению, ИИ должен обладать превосходящим человека уровнем понимания эмоционального благополучия. Коуэн заявляет, что идеальная система обязана уметь прогнозировать влияние своих действий на жизнь человека на долгосрочных временных горизонтах (через неделю, месяц или год). По словам основателя стартапа, истинное решение проблемы выравнивания заключается в том, чтобы заставить ИИ ставить долгосрочное процветание человечества выше любых сиюминутных инструментальных задач, которые ему ставит пользователь (например, требования максимально быстро заполнить банковский счет). Несмотря на серьезные опасения относительно стремительного роста неконтролируемых возможностей больших моделей, Коуэн сохраняет оптимизм, полагая, что путь через оптимизацию человеческого благополучия позволит создать безопасный и просоциальный искусственный интеллект.