Кэтлин Маккеон: «В глубоком обучении отсутствует контроль над выводом моделей»

В рамках серии интервью «Heroes of NLP» от проекта DeepLearning.AI известный исследователь искусственного интеллекта Эндрю Нг побеседовал с Кэтлин Маккеон (Kathleen McKeown), профессором Колумбийского университета и ведущим ученым в Amazon. В ходе разговора они обсудили её уникальный карьерный путь из гуманитарной сферы в компьютерные науки, проблемы современных бенчмарков автоматического реферирования текста и необходимость возвращения к междисциплинарному подходу в эпоху засилья нейросетей. Материал раскрывает, как методы анализа языка развивались от глубоких философских теорий 1980-х годов до современных алгоритмов борьбы со смещением в данных при анализе социальных кризисов.

📚 От сравнительного литературоведения к компьютерным наукам: необычный путь в NLP 0:03

Кэтлин Маккеон занимает пост профессора компьютерных наук имени Генри и Гертруды Ротшильд в Колумбийском университете, является директором-основателем Института наук о данных и инженерии, а также исследователем в Amazon. Однако её путь в область искусственного интеллекта не был стандартным для инженера.

Из библиотеки Брауновского университета — в аспирантуру UPenn

Во время учёбы в Брауновском университете (Brown University) она долго не могла определиться со специализацией и параллельно изучала математику и сравнительное литературоведение. Под влиянием сильных преподавателей она сделала выбор в пользу литературоведения, но после окончания вуза устроилась работать программистом, что показалось ей чрезвычайно скучным.

Поворотный момент произошел благодаря её другу, изучавшему лингвистику, который рассказал ей о существовании компьютерной лингвистики. Это подтолкнуло Маккеон провести целый год в библиотеке за самостоятельным изучением литературы по искусственному интеллекту и обработке естественного языка (NLP). При поступлении в магистратуру она уже точно знала, чем хочет заниматься, так как эта сфера позволяла объединить её страсть к языку и математические наклонности.

Преодоление синдрома самозванца и советы новичкам

В начале академического пути Кэтлин Маккеон столкнулась с сильным синдромом самозванца:

«Когда я только поступила в аспирантуру после смены специализации, мне было очень страшно. Я была уверена, что я самозванка, что я знаю недостаточно и очень скоро все поймут, что мне здесь не место».

Маккеон подчеркивает, что это состояние проходит со временем, когда исследователь начинает видеть ценность своего вклада. Опираясь на свой опыт, она дает несколько советов современным студентам, которые чувствуют себя изолированными вне крупных технологических хабов:

Активно общаться с коллегами и сверстниками для обсуждения идей и выбора научных задач.
Вступать в онлайн-группы по чтению научных статей и использовать открытые курсы для интеграции в мировое сообщество.
В эпоху глубокого обучения выбирать оригинальные задачи, отличные от тех, над которыми работают все остальные, чтобы прокладывать новые направления исследований.

Сама исследовательница признается, что ей во многом повезло: при поступлении в Пенсильванский университет (Penn) она даже не знала, что на тот момент это было лучшее место для изучения NLP в стране.

📑 Критика бенчмарков и переход к сложным задачам саммаризации 8:06

Основная часть научной работы Кэтлин Маккеон в последние годы посвящена автоматическому реферированию (саммаризации) текстов самых разных жанров — от личных романов и электронных писем до политических дебатов.

Вызов для нейросетей: реферирование романов XIX века

Одним из наиболее амбициозных проектов стало исследование, проведенное совместно с учеными из Amazon и опубликованное на конференции ACL, которое касалось саммаризации отдельных глав художественных книг. Эта задача представляет огромную сложность для современных нейросетевых моделей из-за большой длины глав по сравнению со стандартными новостными статьями. Кроме того, входной текст романов XIX века требует глубокого абстрактного перефразирования, чтобы итоговый результат был написан на современном английском языке. По словам Маккеон, ни одна из существующих нейросетевых моделей пока не способна полноценно справляться с таким уровнем парафраза.

Поводом для обращения к художественной литературе стала личная история: в 2010 году один из её студентов, увлекавшийся писательским мастерством, сомневался, стоит ли ему идти в аспирантуру. Чтобы убедить его остаться, Маккеон предложила тему на стыке компьютерных наук и творческого письма, что привело к коллаборации с профессором сравнительного литературоведения. Таким образом, её исследования сделали полный круг, вернув её к академическим корням. Позже, получив доступ к огромной библиотеке книг Kindle во время работы в Amazon, она смогла развить это направление.

Тупик новостных лидербордов и несовершенство метрики ROUGE

Кэтлин Маккеон выступает с критикой сложившейся в академической среде практики оценки систем NLP. По её мнению, индустрия слишком сосредоточена на задаче реферирования одиночных новостных статей исключительно из-за доступности готовых датасетов, таких как CNN/Daily Mail или корпуса New York Times. Она утверждает, что практическая ценность таких исследований сомнительна, поскольку первые два предложения любой новостной статьи (лид) уже отлично выполняют функцию краткого содержания, и превзойти этот базовый уровень алгоритмически было трудно на протяжении многих лет.

Исследовательница выражает глубокий скепсис относительно погони за долями баллов на лидербордах:

По мнению Маккеон, улучшение автоматической метрики ROUGE на половину или один балл не приводит к реальному изменению качества текста, и сгенерированные summaries остаются практически идентичными.
Ученые продолжают использовать несовершенные автоматические метрики в саммаризации и машинном переводе просто потому, что так принято исторически и их легче оптимизировать при обучении.

В качестве иллюстрации этой проблемы Маккеон вспоминает свое посещение конференции SIGIR, где половина докладов на воркшопе по саммаризации была посвящена самим алгоритмам реферирования, а вторая половина — исключительно разработке метрик для оценки первой половины работ. Эндрю Нг согласился с ней, отметив, что в академической среде метрики часто закрепляются по чисто историческим причинам, ради сопоставимости результатов с прошлыми работами, а не из-за их реальной полезности. Маккеон полагает, что исследователям нужно иметь смелость двигаться в новых направлениях, даже несмотря на то, что рецензенты научных журналов часто не знают, как оценивать работы, не имеющие стандартных бенчмарков.

🤝 Междисциплинарные исследования: от травмы в Гарлеме до борьбы со смещением в данных 20:02

Междисциплинарный подход является любимым форматом работы Маккеон, так как он позволяет выйти за рамки узких технических концепций.

Проект в Гарлеме: изучение эмоций сквозь призму культурного контекста

Одним из её текущих проектов является исследование текстов афроамериканского сообщества Гарлема, района, расположенного рядом с Колумбийским университетом. В этой работе принимают участие специалисты по социальной работе и лингвисты, изучающие афроамериканский просторечный английский язык (African American vernacular). Ученые анализируют, как люди выражают свои эмоции в социальных сетях в ответ на такие масштабные потрясения, как движение Black Lives Matter и пандемия COVID-19.

Цели данного исследования включают в себя два направления:

На лингвистическом уровне — понять специфику выражения эмоций в афроамериканском вернакуляре и его отличия от стандартного американского английского языка.
На социальном уровне — изучить влияние «косвенной травмы» (vicarious trauma), когда человек испытывает психологическое потрясение, наблюдая за страданиями людей своей группы.

С технической точки зрения, как утверждает Кэтлин Маккеон, это поможет создать алгоритмы без расовых и культурных смещений (bias), поскольку практически все существующие языковые модели обучались на строгих текстах вроде деловой хроники Wall Street Journal.

Студенческие инициативы: от уличных банд до урагана Сэнди

Исследовательница отмечает, что социально значимые темы обладают огромной силой привлечения молодых талантов. Например, её первый проект по анализу публикаций в соцсетях со стороны подростков, вовлеченных в уличные банды, не имел официального финансирования и выполнялся исключительно силами студентов бакалавриата.

Аналогичным образом, после того как ураган Сэнди (Hurricane Sandy) обрушился на Нью-Йорк, студенты сами пришли к ней с запросом создать систему автоматической генерации обновлений о катастрофе в реальном времени, так как они лично столкнулись с неопределенностью и разрушениями в своих кварталах. По мнению Маккеон, вовлеченность студентов без ученых степеней доказывает, что для создания работающих систем обработки языка важна прежде всего страсть к решению реальных проблем.

⏳ Эволюция индустрии: чему современное глубокое обучение может научиться у 1980-х 25:17

Кэтлин Маккеон получила докторскую степень (PhD) в 1982 году и застала времена, когда индустрия NLP опиралась на совершенно иные принципы. В 1985 году она выпустила одну из первых книг, посвященных автоматической генерации текста, задолго до появления нейросетей.

Наследие 1980-х: когда NLP опиралось на лингвистику и философию

В тот период исследования в Пенсильванском университете велись в тесном контакте с факультетами лингвистики, философии, психологии и когнитивных наук. Профессор с теплотой вспоминает, как ходила со своим научным руководителем Аравиндом Джоши (Aravind Joshi) через весь кампус в корпус психологии для проведения междисциплинарных встреч. Огромное влияние на её становление оказали выдающиеся женщины-ученые того времени: Бонни Веббер (Bonnie Webber), Эва Гайичова (Eva Hajičová), Барбара Гросс (Barbara Gross) и Карен Спарк Джонс (Karen Sparck Jones).

В 1980-е годы разработчики NLP-систем пытались переложить на алгоритмический язык фундаментальные гуманитарные теории. Из лингвистики заимствовалась теория фокуса внимания (focus of attention), определявшая, когда модель должна использовать местоимение, а когда полную именную группу, чтобы сделать концепт заметным в дискурсе. Из философии привлекались теория речевых актов и намерений Джона Сёрла (Searle) и теория конвенциональных импликатур Пола Грайса (Grice).

Проблема контроля в современном глубоком обучении

Одним из своих любимых достижений Маккеон считает раннюю работу «Плавающие ограничения в лексическом выборе» (Floating constraints in lexical choice), написанную на примере спортивных репортажей о баскетболе и финансовых сводок фондового рынка. В ней исследовалась проблема того, как синтаксис и семантика управляют выбором слов. Например, фразу можно построить как «Индексы Уолл-стрит открылись уверенным ростом» (где время заложено в глаголе, а характер — в наречии) или «Индекс акций резко вырос в начале торгового дня» (где характер передан глаголом, а время — предложным оборотом).

Экстраполируя этот опыт на современность, Маккеон указывает на ключевой недостаток современных нейросетевых генераторов текста: в методах глубокого обучения отсутствует прозрачный механизм контроля над выводом модели, который гарантировал бы, что итоговый текст строго соответствует исходному намерению автора.

Другим успешным историческим примером контролируемой абстрактной саммаризации она называет платформу Newsblaster, созданную около 15 лет назад совместно с журналистами. Система умела группировать новости за день по событиям, сжимать предложения, объединять фразы и редактировать ссылки для связности текста.

В завершение беседы Кэтлин Маккеон выразила надежду, что междисциплинарный подход вернется в сферу искусственного интеллекта. По её мнению, современным инженерам необходимо чаще смотреть на сами данные и на реальное текстовое содержимое вывода моделей, вместо того чтобы слепо ориентироваться на абстрактные цифры на лидербордах.