«NLP пожирает машинное обучение»: Джон Боханнон о трендах индустрии

Развитие обработки естественного языка (NLP) в 2021 году ознаменовалось переходом от бурных архитектурных революций к фазе прагматичной инженерной оптимизации. Директор по науке компании Primer AI Джон Боханнон в эфире подкаста The TWIML AI Podcast подвёл итоги года, разобрав ключевые технологические тренды, кризис академических бенчмарков и грядущую интеграцию языковых моделей в робототехнику и геймдизайн.

🍦 Эра инкрементальной науки и поглощение машинного обучения 0:01

В сфере обработки естественного языка наметилось явное изменение темпа научной мысли. Если предыдущие несколько лет напоминали непрерывный взрыв, когда едва ли не каждый месяц появлялась принципиально новая архитектура или революционный метод работы с данными, то к концу 2021 года ситуация стабилизировалась. По мнению Джона Боханнона, индустрия вступила в так называемую «инкрементальную фазу», когда основные усилия исследователей направлены не на создание альтернатив трансформерам, а на повышение их эффективности, удешевление инференса и практическое применение в бизнесе.

Параллельно со стабилизацией базовых алгоритмов активизировался другой фундаментальный процесс: NLP начинает стремительно поглощать остальные направления машинного обучения (ML). Традиционное представление об обработке текста как об изолированной дисциплине («текст на входе — текст на выходе») уходит в прошлое. Происходит глубокое слияние компьютерного зрения и языковых технологий, что подтверждается солидарным мнением экспертов как из области CV (Computer Vision), так и из лагеря NLP. Язык начинает выступать в роли универсальной надстройки, способной объединить концепты различных модальностей данных.

🎨 Мультимодальный прорыв: от DALL-E до GLIDE 3:04

Безусловным лидером в освоении нового гибридного пространства между текстом и изображениями в 2021 году стала лаборатория OpenAI. Их триумфальное шествие началось в январе с презентации модели DALL-E, за которой последовал классификатор CLIP. Настоящим финальным аккордом года стал релиз модели GLIDE, состоявшийся буквально за пару недель до записи интервью. Джон Боханнон поделился личным опытом тестирования уменьшенной версии GLIDE, отправляя ведущему сгенерированные за считаные минуты изображения корги в костюме робота и гигантского дружелюбного андроида, посещающего Сент-Луис.

Главное технологическое отличие GLIDE от связки предыдущих моделей заключается в отказе от использования CLIP для направления генерации изображений. Вместо этого GLIDE применяет передовые методы диффузионного зашумления (noising technique), что позволяет создавать куда более фотореалистичные картины. До этого момента большинство экспериментов с системами VQGAN и CLIP сводились к созданию сюрреалистичных, «галлюциногенных» образов. В качестве забавного примера Боханнон привёл свои предновогодние эксперименты в Primer AI, где по запросу «рождественская ёлка, растущая в ванной» нейросеть выдала психоделический унитаз с прорастающим деревом и полотенцем в форме шапки Санта-Клауса. GLIDE же демонстрирует коммерческий потенциал.

Важнейшей инновацией GLIDE эксперт считает функцию «in-painting» (внутреннего дорисовывания). Теперь дизайнер может буквально пальцем очертить область на сгенерированном эскизе гостиной или пейзажа и текстом скомандовать: «добавь сюда красный амбар», а затем уточнить: «с жёлтыми окнами». По мнению Боханнона, эта технология определяет будущее графических редакторов:

Либо Adobe внедрит полноценный языковой интерфейс в Photoshop, либо кто-то другой полностью заберёт их долю рынка. В будущем мы будем работать именно так.

Помимо генерации, мультимодальные эмбеддинги совершили революцию в семантическом поиске по изображениям. Теперь можно взять массив картинок, например, выкачанный из Twitter, и осуществлять поиск по ним, просто описывая текстом желаемый сюжет. Модель переводит текстовый запрос в высокомерное векторное пространство, находит «соседние» изображения в той же области и мгновенно выдаёт релевантный результат.

🧬 Биологический подход к ИИ: триумф трансформеров в науке 8:43

Универсальность архитектуры трансформеров, впервые описанной в классической статье 2017 года, продолжает экспансию в фундаментальные научные дисциплины — химию, медицину и молекулярную биологию. Языковые модели успешно адаптируются для предсказания структуры белков и манипуляций с химическими формулами. Как отмечает гость подкаста, данные в этих сферах подаются на вход нейросети точно так же, как и при обучении человеческому языку без учителя. В научных публикациях уже закрепился официальный термин «белковые языковые модели» (protein language models).

Джон Боханнон называет алгоритм самообучения трансформеров «красивым, но глупым трюком», подчёркивая, что в данном случае слово «глупый» не является оскорблением. Суть метода сводится к двум базовым задачам:

Masked token task — сокрытие случайных токенов в последовательности (будь то слова, пиксели, звуки или элементы ДНК) и обучение модели заполнять эти пропуски.
Auto-regressive task — авторегрессионное предсказание, когда текст обрывается, и модель должна продолжить логически верное написание.

Удивительно, но из этой простой математической задачи предобучения на гигантских массивах данных внезапно рождаются сложные эмерджентные навыки. При этом фундаментального теоретического понимания того, как именно работают эти многопараметрические нейросетевые функции, у учёных до сих пор нет. Собеседники констатировали забавную трансформацию: если раньше машинное обучение считалось строгим разделом прикладной математики, то теперь оно всё больше напоминает биологию. Исследователи занимаются эмпирическим изучением искусственных систем: копаются в них, тестируют, ставят опыты и пытаются на ощупь определить границы их возможностей. По признанию Боханнона, даже в профильном Slack-канале алгоритмов его собственной команды Primer при обсуждении редких теоретических статей, написанных на стыке с физикой, эксперты чаще всего приходят к осторожному выводу: «возможно, это работает».

📉 Кризис академических бенчмарков 18:09

Серьёзным вызовом для ИИ-индустрии в 2021 году стал кризис систем оценки качества моделей. Популярные академические бенчмарки (GLUE, SuperGLUE, GEM, CoNLL) стремительно теряют свою практическую полезность. Например, старый датасет CoNLL, представляющий собой фиксированную выборку новостных текстов определённого периода, до сих пор используется как эталон для задачи распознавания именованных сущностей (NER).

Однако разработчики из Primer AI заметили опасную тенденцию: погоня за первыми строчками (SOTA) в академическом рейтинге CoNLL зачастую ведёт к снижению качества работы модели на реальных коммерческих данных клиентов, размеченных вручную. Происходит скрытое переобучение под специфику академических тестов. В результате, по заверению Боханнона, практически все крупные игроки рынка сейчас втайне от конкурентов создают и поддерживают собственные закрытые бенчмарки для внутренней валидации.

Единственной по-настоящему свежей альтернативой замороженным тестам гость считает проект Dynabench от компании Meta. Это постоянно эволюционирующий состязательный (adversarial) бенчмарк, в котором люди находятся внутри цикла тестирования и активно пытаются обмануть, запутать языковые модели. Такой подход позволяет непрерывно собирать ценные, «живые» данные о слабых местах алгоритмов.

При этом Боханнон с сожалением констатирует ослабление научной солидарности в коммерческом ИИ-секторе. Большинство корпораций используют бенчмарки исключительно ради пиара и хвастовства. В качестве яркого примера лицемерия он привёл метрику ROUGE, созданную для машинного перевода и ныне применяемую для оценки качества суммаризации текстов. Все в индустрии открыто признают, что метрика ROUGE в корне несовершенна и ошибочна, однако продолжают публиковать отчёты о достижении SOTA именно в этих попугаях. Приятным исключением из этой эгоистичной экосистемы закрытого ML остаётся независимое сообщество EleutherAI. Их открытый гигантский датасет The Pile, а также бесплатные языковые модели GPT-Neo и GPT-J доказывают, что энтузиасты всё ещё способны двигать фундаментальную науку вперёд вопреки коммерческому давлению.

⚡ Эффективность и Switch Transformer: прощание с монолитными сетями 27:04

Поскольку бесконечное наращивание параметров моделей начало упираться в физические ограничения чипов, требования экологии и финансовые возможности бюджетов (рост моделей давно опережает закон Мура), фокус сместился на разреженную архитектуру (sparse activation). Главным технологическим прорывом в этой области стала имплементация архитектуры Switch Transformer от Google.

Суть концепции Mixture of Experts (MoE, «смесь экспертов») заключается в отказе от монолитной структуры нейросети. Вместо того чтобы при каждом запросе прогонять информацию через гигантский неделимый массив параметров, сеть фрагментируется на десятки мелких специализированных подсетей («экспертов»). На нижнем уровне системы работает умный роутер: когда поступает определённый языковой токен, он мгновенно перенаправляет его к наиболее подходящему эксперту (или паре экспертов).

Такой подход даёт колоссальные преимущества:

Система может обладать астрономическим числом параметров, но оставаться дешёвой в обучении и инференсе, так как в моменте активируется лишь малая её часть.
Архитектура идеально масштабируется на распределённых кластерах, снимая проблему нехватки памяти на одном чипе.

Технологию MoE в 2021 году успешно внедрили DeepMind в своей модели Gopher и Google в проекте GLaM. Кроме того, Meta AI использовала разреженную архитектуру для создания мультиязычной модели перевода, которая на ежегодном престижном конкурсе WMT впервые в истории обошла по качеству все узкоспециализированные двуязычные модели. Обратной стороной медали Боханнон называет экстремальную сложность инфраструктуры: на данный момент для развёртывания распределённых MoE-трансформеров в PyTorch требуется элитная команда редких инженеров, готовых писать кастомные низкоуровневые решения.

🛡️ Этика ИИ: «мягкие» трюки оптимизации и «острые» скандалы 31:30

Обсуждение ответственного ИИ и этики вышло на новый уровень практического применения. На «мягкой», сугубо инженерной стороне этого вопроса лежат методы повышения эффективности данных. По словам Боханнона, индустрия часто путает понятия few-shot (обучение по нескольким примерам) и zero-shot learning с обычным промпт-инжинирингом. Когда разработчик пишет хитрый текстовый запрос к готовой модели, никакого реального обучения (изменения весов) в ней не происходит.

Тем не менее, инженеры находят изящные инкрементальные трюки. Так, при стандартной задаче классификации документов вместо того, чтобы наказывать предобученную модель за неверные догадки, ей на вход начали подавать данные в формате теста с множественным выбором (multiple choice), где варианты ответов прямо прописаны в промпте. Модели не приходится тратить ресурсы на понимание самой сути задания, что резко сокращает объём необходимой обучающей выборки.

Другим важнейшим трендом MLOps в Primer AI называют каскадные модели (inference triage). Зачем гонять миллионы документов через дорогущие gpt-подобные трансформеры на GPU, шокируя бухгалтерию ежемесячными счетами от AWS?

В рамках каскадного подхода 99% рутинной работы можно поручить классическому алгоритму Scikit-learn на дешёвых процессорах (CPU). И лишь 1% самых спорных, амбигуентных и запутанных случаев система автоматически перенаправит «тяжёлой артиллерии» в виде большой нейросети.

На «острой» стороне этики по-прежнему бушуют публичные скандалы. Языковые модели обучаются на массивах текстов из интернета, отражающих худшие черты человеческой истории: предвзятость, зацикленность на западной культуре, доминирование мужского взгляда и токсичность. Громким провалом года Боханнон считает запуск онлайн-демо экспериментальной модели Delphi от Института искусственного интеллекта Аллена (AI2). Исследователи искренне пытались создать систему, способную категоризировать этические суждения, но открытый интерфейс позволил интернет-пользователям за 15 секунд заставить модель выдавать расистские и неприемлемые перлы. Учёные подверглись жесточайшей травле и буллингу в Twitter.

Ведущий подкаста Сэм Чаррингтон добавил в копилку этических проблем инцидент с Google в октябре: на поисковый запрос о том, что делать при эпилептическом припадке, умный виджет (featured snippet) выдал маркированный список действий, который на самом деле являлся перечнем того, чего делать категорически нельзя. Нейросеть просто перепутала контекст отрицания на целевой медицинской странице.

Впрочем, у этих скандалов есть колоссальный плюс: теперь ни одна серьёзная научная работа по ML не обходится без обязательного детального раздела об этических рисках и возможных вредных последствиях. Проекты вроде Gopher и GLaM начали использовать продвинутую фильтрацию исходного интернет-мусора, что, помимо безопасности, внезапно дало ощутимый прирост к базовой производительности моделей.

💬 Проблема чат-ботов и коореферентный тупик 48:55

Несмотря на все восторги вокруг трансформеров, Джон Боханнон скептически оценивает прогресс разговорных интерфейсов. По его мнению, коммерческие чат-боты за прошедший год не прибавили в реальной полезности ни на грамм. Да, они стали более гладкими синтаксически, их ответы больше не похожи на «словесный салат», но они по-прежнему не способны удерживать долгосрочную нить разговора.

Главный камень преткновения — это провал в задаче кореферентного разрешения (co-reference resolution). Если человек в процессе диалога произносит фразу: «Что ты думаешь об этом?», нейросети по-прежнему критически трудно сопоставить местоимение «этом» с объектом, который обсуждался пятью предложениями ранее. Окно внимания стандартного трансформера крошечное — оно составляет порядка 500 слов. Модель смотрит на мир сквозь узкую замочную скважину и мгновенно забывает всё, что вышло за её рамки.

Это напоминает сюжет культового фильма «Помни» (Memento), где главный герой с амнезией вынужден записывать факты на собственном теле, чтобы не потерять связь с реальностью.

Инновационным выходом из этого тупика может стать концепция «блокнотов» (Scratchpads), предложенная исследователями из Google. Идея заключается в том, чтобы выделить нейросети виртуальное рабочее пространство, где она может буквально делать заметки, фиксировать ключевые переменные и промежуточные выводы по ходу чтения длинного документа или ведения часового диалога, динамически стирая старое и записывая новое.

🌍 Многоязычный бум и аудио как новый рубеж 53:42

Англоцентричность ИИ-индустрии начинает сдавать позиции под натиском азиатского региона. В 2021 году произошёл тектонический взрыв в сфере китайского NLP. В Китае было представлено сразу несколько суверенных языковых моделей, превосходящих по объёму параметров американскую GPT-3, а также специализированные диалоговые системы. По оценке Боханнона, китайский язык в сфере ИИ официально стал полностью равен английскому по уровню инвестиций и качеству проработки. В гонку догоняющих активно включилась Южная Корея, выпустив свой национальный бенчмарк KorGLUE и модель HyperCLOVA.

Однако самым многообещающим долгосрочным вектором Meta AI гость считает проект XLS-R. Его фундаментальная суть — обучение языку напрямую через аудиосигналы, минуя этап кодирования в письменный текст, точно так же, как это делают маленькие дети. Это открывает доступ к колоссальному массиву данных, ведь человечество гораздо больше говорит ртом, чем пишет пальцами на клавиатуре.

Главная ценность XLS-R — спасение так называемых языков с низким уровнем ресурсов (low-resource languages). Для сотен африканских наречий, языков коренных народов Южной Америки или даже для затухающего исландского языка физически невозможно собрать миллионы страниц оцифрованного текста для обучения условной BERT или GPT. Но записать аудиосообщение на диктофон может любой носитель. Аудио-трансформеры способны решить эту проблему раз и навсегда.

🚫 Чего не произошло в 2021 году 58:41

Анализируя несбывшиеся страхи, Джон Боханнон выделил несколько пунктов:

Интернет не заполнился неотличимым спамом от GPT-3. Год назад эксперты (включая команду самого Боханнона в Primer) всерьёз паниковали, что соцсети накроет лавина сгенерированных фейков. На практике этого не случилось: боты всё ещё слишком часто галлюцинируют и требуют колоссального контроля со стороны человека. В сети пока не появилось ни одного популярного блога или влиятельного Twitter-аккаунта, который тайно вели бы роботы. Государственные тролль-фермы наверняка начнут брать эти модели на вооружение для ускорения работы своих райтеров, но до полной автоматизации пропаганды ещё далеко.
Обучение с подкреплением (RL) не захватило NLP. Пока RL доминирует в робототехнике и играх, в обработке текста успехи скромные. Единственным исключением стала работа OpenAI по тонкой настройке суммаризации текстов на основе предпочтений человека (RLHF), но и она не произвела эффекта разорвавшейся бомбы.
Мы так и не поняли, как они работают. Загадка внутреннего устройства больших языковых моделей осталась нетронутой.

🐎 Дикие кони генерации: от трюков до GitHub Copilot 1:02:07

Джон Боханнон сравнил современные сверхбольшие авторегрессионные модели вроде GPT-3 с дикими лошадьми:

Это потрясающая, невероятно мощная лошадь. Но удачи вам, если вы попытаетесь оседлать её и доехать на ней до города.

Между медийным восторгом вокруг огромных нейросетей и ничтожно малым количеством их реальных коммерческих внедрений зияет пропасть. Для большинства узких прикладных задач бизнеса качественная разметка данных всё ещё гораздо важнее, чем размер параметров модели. Пытаясь использовать 6-миллиардную открытую модель GPT-J от EleutherAI для аугментации данных (чтобы большая модель генерировала синтетические примеры для обучения маленькой), инженеры Primer AI потерпели фиаско — метод пока работает нестабильно.

Зато большие модели идеальны для творческих шалостей. За 10-20 минут без строчки кода можно собрать работающий промпт для генерации определений в стиле Urban Dictionary, придумывания названий фильмов по их описанию или составления глубоких психологических вопросов. Боханнон рассказал, как во время пандемии COVID-19, когда его команда превратилась в «маленькие лица на экране зума», он создал на базе GPT-Neo генератор вопросов для понедельничного тимбилдинга, который стал вирусным в интернете.

Единственным безоговорочным примером масштабного и успешного индустриального внедрения генеративного NLP в 2021 году собеседники назвали GitHub Copilot, интегрированный в VS Code. Несмотря на юридические споры об авторских правах на код, Copilot стал незаменимым инструментом для разработчиков Primer. Он избавляет от необходимости постоянно лезть на Stack Overflow за синтаксисом библиотек Pandas или Python. Нейросеть, обученная на всём публичном коде GitHub, мгновенно выплевывает качественные шаблоны, ускоряя написание рутинного кода в 10 раз. Из этой же серии искреннего фана — проект My Little Pony GPT, разговаривающий строго в рамках вселенной детских игрушек.

🔮 Прогнозы: бесконечные игры и NLP в робототехнике 1:12:07

Заглядывая в будущее, Боханнон озвучил несколько смелых прогнозов:

В индустрии гейминга неизбежно появятся полноценные «AI-first» компании. Первой ласточкой стала текстовая RPG AI Dungeon, но впереди нас ждут комплексные бесконечные миры, где неигровые персонажи (NPC) станут полноценными агентами со своей эволюционирующей памятью и характером, а сам сюжет будет динамически переписываться на основе разговоров игрока с миром. В качестве примера движения в эту сторону Чаррингтон упомянул стартап Transforms.ai, который пытается скрестить языковые модели с AR/VR технологиями для метаверсов.

Узконаправленные ИИ-стартапы в сфере NLP (такие как Grammarly или Expensify) продолжат повышать свою эффективность, начнут планомерно расширять функционал на соседние ниши и в течение года будут массово скупаться гигантами рынка. Технологические лидеры (FAANG) будут крайне осторожны с публичным выпуском сырых языковых моделей из-за колоссальных репутационных рисков, но продолжат невидимо внедрять нейросетевые механизмы внутрь своих старых продуктов.

Наконец, язык неизбежно придёт в робототехнику. Вместо того чтобы мучительно просчитывать кинематику движений железной руки через векторную математику или вслепую прогонять её через обучение с подкреплением, инженеры начнут использовать человеческий язык как высокоуровневый инструмент целеполагания и инкапсуляции информации. На этой мажорной ноте собеседники резюмировали, что обработка естественного языка, бывшая до 2017 года сложной и зачастую унылой дисциплиной, наконец-то стала по-настоящему весёлой.