Крис Маннинг и Эндрю Ын об эволюции языковых моделей

В рамках серии интервью от DeepLearning.AI встретились два выдающихся исследователя современности — Эндрю Ын и Крис Маннинг. Будучи пионером в области обработки естественного языка (NLP), Крис Маннинг поделился своим видением эволюции технологий: от жестких символьных правил до современных трансформеров и больших языковых моделей. В ходе беседы ученые обсудили исторические вехи развития машинного перевода, математические основы алгоритма GloVe, а также перспективы достижения сильного искусственного интеллекта (AGI).

🧠 От лингвистики к машинному обучению: истоки пути Криса Маннинга 0:02

Крис Маннинг сегодня по праву считается одним из самых цитируемых исследователей в области NLP в мире. Он занимает пост профессора компьютерных наук и лингвистики в Стэнфордском университете, а также возглавляет Стэнфордскую лабораторию искусственного интеллекта (SAIL). Однако его академический путь уникален: в студенческие годы он одновременно специализировался в области компьютерных наук, математики и лингвистики.

В то время Маннинга завораживал когнитивный аспект человеческой речи — то, как маленькие дети умудряются осваивать сложнейший язык в период, когда их общие когнические способности еще крайне ограничены. Во второй половине XX века в лингвистике безоговорочно доминировала теория Ноама Хомского (Noam Chomsky). По словам Маннинга, влияние Хомского в тот период можно сравнить с влиянием Р. Э. Фишера в статистике первой половины века. Хомский категорически утверждал, что люди не могут учить язык исключительно на основе входящих данных, и постулировал наличие врожденных механизмов в мозге.

Маннинг признается, что эта гипотеза показалась ему маловероятной с эволюционной точки зрения, учитывая крайне недавнее появление человеческого языка. Это сомнение и подтолкнуло его к изучению машинного обучения в конце 1980-х годов. В те годы машинное обучение было, как выразился ученый, «неопрятным и маргинальным ответвлением ИИ», которым почти никто не занимался. Вся литература по теме ограничивалась парой книг под редакцией Хайме Карбонелла (Jaime Carbonell) и Тома Митчелла (Tom Mitchell) из CMU, а из алгоритмов существовали лишь ранние деревья решений ID3. Доминирующим подходом в ИИ тогда были экспертные системы, где инженеры вручную кодировали знания экспертов.

🔄 Эволюция машинного перевода: от правил к статистике и нейросетям 7:22

Долгое время в NLP предпринимались попытки описывать язык с помощью контекстно-свободных грамматик, прописываемых вручную. В 2000-е годы парадигма сменилась в сторону вероятностного моделирования и символьных структур. Ключевым направлением стал статистический фразный машинный перевод (Phrase-Based Statistical Machine Translation), который сочетал фразовые таблицы вероятностей с языковыми моделями.

Языковая модель — это фундамент NLP, оценивающий распределение вероятностей над последовательностями слов. Этот инструмент используется в контекстном исправлении опечаток Google, системах распознавания речи и машинном переводе. Исторический факт: когда Google только запускал свой переводчик, компания лицензировала старую традиционную систему на основе правил от SYSTRAN, чьи корни уходят еще в 1950-е годы. Лишь спустя пару лет поисковый гигант перешел на статистические модели. По воспоминаниям Эндрю Ына, Франц Ох (Franz Och) стал настоящим лидером мысли, помогшим Google масштабировать традиционные статистические модели на колоссальных объемах данных, что радикально повысило качество Google Translate.

К 2010–2014 годам прогресс фразного перевода застопорился. Простое добавление данных больше не давало сильного эффекта из-за ограниченной емкости моделей. Исследователи, включая самого Маннинга, пытались внедрять грамматическую структуру (синтаксический машинный перевод), но это работало лишь для специфических языковых пар, таких как английский и китайский.

По иронии судьбы, решение заключалось в том, чтобы ослабить внимание к синтаксису и усилить фокус на данных. Настоящим прорывом в текстовом NLP стало появление нейронного машинного перевода (Neural Machine Translation), впервые реализованного Ильей Суцкевером (Ilya Sutskever) и его коллегами в Google. Они отказались от явного использования структуры человеческого языка в пользу глубоких рекуррентных нейросетей (RNN). Если раньше исследователи называли «глубокой» сеть из двух-трех слоев, то команда Суцкевера внезапно развернула 8-слойные RNN с архитектурой LSTM. Для их обучения потребовались инженерные решения и системы из 8 графических процессоров (GPU). Вся система занимала около 500 строк кода на Python поверх нейросетевой библиотеки, но выдавала результаты, близкие к мировому уровню.

⚡ Изобретение внимания и вклад Стэнфорда в архитектуру трансформеров 17:44

Вскоре после первых успехов NMT аспирант Дмитрий Богданов (Dzmitry Bahdanau) и профессор Кёнхён Чо (Kyunghyun Cho), работавшие под руководством Йошуа Бенжио (Yoshua Bengio) в Монреале, разработали концепцию механизмов внимания (Attention). Внимание позволило модели динамически рассчитывать связь между словами в последовательности, избавляя сеть от необходимости удерживать все исходное предложение в одном фиксированном векторе. Модель смогла делать то, что делает человек-переводчик: динамически смотреть назад на исходный текст в процессе генерации.

Развивая эту идею, Крис Маннинг и его аспирант Тханг Луонг (Thang Luong) предложили концепцию билинейного или мультипликативного внимания (bilinear / multiplicative attention). В отличие от многослойного перцептрона Богданова и Чо, стэнфордские исследователи поместили между векторами матрицу, вычисляя оценку схожести через векторно-матричное умножение. Это сделало механизм проще и интерпретируемее.

Как отмечает Эндрю Ын, если заменить гигантскую полноранговую матрицу, требовавшую много параметров, её низкоранговой аппроксимацией (произведением двух матриц низкого ранга), то математически это решение вплотную приближается к механизму, используемому в современных трансформерах. Крис Маннинг подтвердил этот тезис: современные трансформеры умножают векторы на две низкоранговые матрицы, а затем берут их скалярное произведение, что вычислительно гораздо эффективнее.

Сегодня архитектуры на базе трансформеров полностью доминируют. Исследования аспиранта Маннинга Джона Хьюитта (John Hewitt) показали, что трансформеры, обученные на миллиардах слов, без каких-либо подсказок извне выучивают сложнейшие структуры языка: от фактов кореференции (что местоимение «она» относится к Сузан) до иерархической структуры контекстно-свободных грамматик.

📊 Упрощение векторов: математическая элегантность алгоритма GloVe 23:51

Эндрю Ын выделил еще одну веху в карьере Маннинга, когда его команда продвинула индустрию вперед за счет изящных матричных вычислений — создание алгоритма векторного представления слов GloVe (Global Vectors). В период с 2010 по 2013 годы дистрибутивная семантика развивалась через сложные, чисто механистические архитектуры нейросетей, которые обучались неделями из-за отсутствия быстрых параллельных компьютеров.

Крис Маннинг совместно с постдоком Джеффри Пеннингтоном (Jeffrey Pennington) задались целью математически осмыслить происходящее в этих моделях. Они обратились к старой традиции латентно-семантического анализа (LSA), опирающейся на классическую линейную алгебру. В терминах линейной алгебры модели LSA представляли собой сингулярное разложение (SVD) матриц совместной встречаемости слов с последующим понижением ранга за счет отсечения малых сингулярных чисел. Алгоритм GloVe смог объединить преимущества локального контекстного обучения нейросетей и глобальной статистики матричных разложений, упростив обучение эмбеддингов до изящного скалярного произведения векторов.

🔌 «Электричество — это новый ИИ»: масштабирование и пределы больших моделей 27:19

В 2018 году появление модели BERT ознаменовало триумф концепции обучения представлений (representation learning). BERT доказал, что простое предобучение огромного трансформера на нескольких миллиардах слов для задачи заполнения пропусков в предложениях формирует мощные языковые репрезентации. Эти репрезентации затем легко адаптируются с помощью простого классификатора Softmax для решения прикладных задач: ответов на вопросы, классификации текстов и распознавания именованных сущностей.

Однако масштабы вычислений со времен BERT выросли экспоненциально. Комментируя знаменитый лозунг Эндрю Ына «ИИ — это новое электричество», Крис Маннинг иронично перевернул его: «Электричество — это новый ИИ». Современные модели обучаются на пулах данных и мощностях, которые в 10 000 и даже 100 000 раз превышают параметры оригинального BERT, требуя колоссальных объемов энергии.

По мнению Криса Маннинга, этот тренд экстенсивного роста не сможет продолжаться долго, поскольку индустрия банально сталкивается с физическим дефицитом доступных текстов и нехваткой вычислительных систем. Впрочем, ученый соглашается, что если инженеры смогут дать исследователям прирост производительности GPU еще на три порядка, модели станут качественнее даже без увеличения объемов текста.

🤖 Способен ли масштаб привести к сильному ИИ (AGI)? 32:19

Огромный интерес в научном сообществе вызвал релиз модели GPT-3 от OpenAI. Разработчики обнаружили, что сверхкрупные языковые модели обретают свойство универсальности (generality). В отличие от BERT, который требовал тонкой настройки (fine-tuning) под каждую отдельную задачу, GPT-3 способна выполнять вычисления на основе нескольких контекстных примеров (few-shot prompting) без изменения весов. Модели можно просто намекнуть на задачу — будь то перевод на испанский язык, ответы на вопросы или сложные лингвистические манипуляции с синтаксисом предложений — и она начинает ее выполнять.

Несмотря на то, что GPT-3 продемонстрировала определенное видение общего интеллекта в противовес узкоспециализированному ИИ прошлых лет, Крис Маннинг твердо убежден, что простое масштабирование не является прямым путем к созданию сильного искусственного интеллекта (AGI). Ученый аргументирует это тем, что человеческому ребенку требуется в разы меньше данных для достижения языковой компетенции. Настоящий разум, по мнению Маннинга, должен обладать способностью гибко учиться в процессе взаимодействия со средой. Большая модель GPT-3 в режиме инференса больше не учится: она лишь сопоставляет входящие паттерны (pattern matching) с тем, что уже видела на этапе гигантского предобучения. Исследователь считает, что гораздо ближе к истинному AGI находится концепция мета-обучения (meta-learning) — создание систем, способных «учиться тому, как учиться» новым задачам.

🎓 Как стать успешным исследователем: советы и карьерные ориентиры 37:40

Крис Маннинг воспитал плеяду успешных ученых. Отвечая на вопрос Эндрю Ына о критериях отбора студентов в свою лабораторию, он выделил несколько ключевых качеств:

Креативность и нестандартный взгляд на устоявшиеся парадигмы. Успешный исследователь должен обладать научным скептицизмом и стремлением «сломать» текущие подходы, обнаружив их скрытые изъяны.
Критическое и осознанное чтение научной литературы. Вместо слепого копирования чужих алгоритмов необходимо задаваться вопросами: какие допущения сделали авторы и почему они выбрали именно этот путь.
Готовность к неудачам. Маннинг подчеркивает, что когда эксперименты проваливаются, исследователь узнает гораздо больше, чем при механическом воспроизведении успешного кода.

Эндрю Ын добавил, что большинство креативных людей объединяет привычка читать литературу из самых разных, порой неожиданных областей, что позволяет им находить неочевидные связи — например, между теоретической лингвистикой и глубоким обучением.

Давая финальный совет молодым специалистам, Маннинг призвал их к гибкости и постоянному расширению кругозора. Индустрия ИИ меняется стремительно: на смену системам правил пришли вероятностные модели, затем доминировали методы опорных векторов (SVM), а сегодня балом правит глубокое обучение. Однако сами нейросети зародились еще в 1950-х годах. Долгосрочный успех, по словам ученого, сопутствует тем, кто умеет синтезировать старые идеи с новыми технологическими возможностями, вовремя замечает перспективные тренды и сохраняет ментальную гибкость.

В завершение встречи ученые тепло вспомнили годы, когда они были соседями по кабинету в Стэнфорде, деля общую стену и регулярно обмениваясь идеями в коридоре.