Крис Маннинг и Эндрю Ын об эволюции языковых моделей

DeepLearning.AI 18,2 тыс. 46 мин 8 мин 14.10.2020
Главное

В рамках серии интервью от DeepLearning.AI встретились два выдающихся исследователя современности — Эндрю Ын и Крис Маннинг. Будучи пионером в области обработки естественного языка (NLP), Крис Маннинг поделился своим видением эволюции технологий: от жестких символьных правил до современных трансформеров и больших языковых моделей. В ходе беседы ученые обсудили исторические вехи развития машинного перевода, математические основы алгоритма GloVe, а также перспективы достижения сильного искусственного интеллекта (AGI).

🧠 От лингвистики к машинному обучению: истоки пути Криса Маннинга 0:02

Крис Маннинг сегодня по праву считается одним из самых цитируемых исследователей в области NLP в мире. Он занимает пост профессора компьютерных наук и лингвистики в Стэнфордском университете, а также возглавляет Стэнфордскую лабораторию искусственного интеллекта (SAIL). Однако его академический путь уникален: в студенческие годы он одновременно специализировался в области компьютерных наук, математики и лингвистики.

В то время Маннинга завораживал когнитивный аспект человеческой речи — то, как маленькие дети умудряются осваивать сложнейший язык в период, когда их общие когнические способности еще крайне ограничены. Во второй половине XX века в лингвистике безоговорочно доминировала теория Ноама Хомского (Noam Chomsky). По словам Маннинга, влияние Хомского в тот период можно сравнить с влиянием Р. Э. Фишера в статистике первой половины века. Хомский категорически утверждал, что люди не могут учить язык исключительно на основе входящих данных, и постулировал наличие врожденных механизмов в мозге.

Маннинг признается, что эта гипотеза показалась ему маловероятной с эволюционной точки зрения, учитывая крайне недавнее появление человеческого языка. Это сомнение и подтолкнуло его к изучению машинного обучения в конце 1980-х годов. В те годы машинное обучение было, как выразился ученый, «неопрятным и маргинальным ответвлением ИИ», которым почти никто не занимался. Вся литература по теме ограничивалась парой книг под редакцией Хайме Карбонелла (Jaime Carbonell) и Тома Митчелла (Tom Mitchell) из CMU, а из алгоритмов существовали лишь ранние деревья решений ID3. Доминирующим подходом в ИИ тогда были экспертные системы, где инженеры вручную кодировали знания экспертов.

🔄 Эволюция машинного перевода: от правил к статистике и нейросетям 7:22

Долгое время в NLP предпринимались попытки описывать язык с помощью контекстно-свободных грамматик, прописываемых вручную. В 2000-е годы парадигма сменилась в сторону вероятностного моделирования и символьных структур. Ключевым направлением стал статистический фразный машинный перевод (Phrase-Based Statistical Machine Translation), который сочетал фразовые таблицы вероятностей с языковыми моделями.

Языковая модель — это фундамент NLP, оценивающий распределение вероятностей над последовательностями слов. Этот инструмент используется в контекстном исправлении опечаток Google, системах распознавания речи и машинном переводе. Исторический факт: когда Google только запускал свой переводчик, компания лицензировала старую традиционную систему на основе правил от SYSTRAN, чьи корни уходят еще в 1950-е годы. Лишь спустя пару лет поисковый гигант перешел на статистические модели. По воспоминаниям Эндрю Ына, Франц Ох (Franz Och) стал настоящим лидером мысли, помогшим Google масштабировать традиционные статистические модели на колоссальных объемах данных, что радикально повысило качество Google Translate.

К 2010–2014 годам прогресс фразного перевода застопорился. Простое добавление данных больше не давало сильного эффекта из-за ограниченной емкости моделей. Исследователи, включая самого Маннинга, пытались внедрять грамматическую структуру (синтаксический машинный перевод), но это работало лишь для специфических языковых пар, таких как английский и китайский.

По иронии судьбы, решение заключалось в том, чтобы ослабить внимание к синтаксису и усилить фокус на данных. Настоящим прорывом в текстовом NLP стало появление нейронного машинного перевода (Neural Machine Translation), впервые реализованного Ильей Суцкевером (Ilya Sutskever) и его коллегами в Google. Они отказались от явного использования структуры человеческого языка в пользу глубоких рекуррентных нейросетей (RNN). Если раньше исследователи называли «глубокой» сеть из двух-трех слоев, то команда Суцкевера внезапно развернула 8-слойные RNN с архитектурой LSTM. Для их обучения потребовались инженерные решения и системы из 8 графических процессоров (GPU). Вся система занимала около 500 строк кода на Python поверх нейросетевой библиотеки, но выдавала результаты, близкие к мировому уровню.

⚡ Изобретение внимания и вклад Стэнфорда в архитектуру трансформеров 17:44

Вскоре после первых успехов NMT аспирант Дмитрий Богданов (Dzmitry Bahdanau) и профессор Кёнхён Чо (Kyunghyun Cho), работавшие под руководством Йошуа Бенжио (Yoshua Bengio) в Монреале, разработали концепцию механизмов внимания (Attention). Внимание позволило модели динамически рассчитывать связь между словами в последовательности, избавляя сеть от необходимости удерживать все исходное предложение в одном фиксированном векторе. Модель смогла делать то, что делает человек-переводчик: динамически смотреть назад на исходный текст в процессе генерации.

Развивая эту идею, Крис Маннинг и его аспирант Тханг Луонг (Thang Luong) предложили концепцию билинейного или мультипликативного внимания (bilinear / multiplicative attention). В отличие от многослойного перцептрона Богданова и Чо, стэнфордские исследователи поместили между векторами матрицу, вычисляя оценку схожести через векторно-матричное умножение. Это сделало механизм проще и интерпретируемее.

Как отмечает Эндрю Ын, если заменить гигантскую полноранговую матрицу, требовавшую много параметров, её низкоранговой аппроксимацией (произведением двух матриц низкого ранга), то математически это решение вплотную приближается к механизму, используемому в современных трансформерах. Крис Маннинг подтвердил этот тезис: современные трансформеры умножают векторы на две низкоранговые матрицы, а затем берут их скалярное произведение, что вычислительно гораздо эффективнее.

Сегодня архитектуры на базе трансформеров полностью доминируют. Исследования аспиранта Маннинга Джона Хьюитта (John Hewitt) показали, что трансформеры, обученные на миллиардах слов, без каких-либо подсказок извне выучивают сложнейшие структуры языка: от фактов кореференции (что местоимение «она» относится к Сузан) до иерархической структуры контекстно-свободных грамматик.

📊 Упрощение векторов: математическая элегантность алгоритма GloVe 23:51

Эндрю Ын выделил еще одну веху в карьере Маннинга, когда его команда продвинула индустрию вперед за счет изящных матричных вычислений — создание алгоритма векторного представления слов GloVe (Global Vectors). В период с 2010 по 2013 годы дистрибутивная семантика развивалась через сложные, чисто механистические архитектуры нейросетей, которые обучались неделями из-за отсутствия быстрых параллельных компьютеров.

Крис Маннинг совместно с постдоком Джеффри Пеннингтоном (Jeffrey Pennington) задались целью математически осмыслить происходящее в этих моделях. Они обратились к старой традиции латентно-семантического анализа (LSA), опирающейся на классическую линейную алгебру. В терминах линейной алгебры модели LSA представляли собой сингулярное разложение (SVD) матриц совместной встречаемости слов с последующим понижением ранга за счет отсечения малых сингулярных чисел. Алгоритм GloVe смог объединить преимущества локального контекстного обучения нейросетей и глобальной статистики матричных разложений, упростив обучение эмбеддингов до изящного скалярного произведения векторов.

🔌 «Электричество — это новый ИИ»: масштабирование и пределы больших моделей 27:19

В 2018 году появление модели BERT ознаменовало триумф концепции обучения представлений (representation learning). BERT доказал, что простое предобучение огромного трансформера на нескольких миллиардах слов для задачи заполнения пропусков в предложениях формирует мощные языковые репрезентации. Эти репрезентации затем легко адаптируются с помощью простого классификатора Softmax для решения прикладных задач: ответов на вопросы, классификации текстов и распознавания именованных сущностей.

Однако масштабы вычислений со времен BERT выросли экспоненциально. Комментируя знаменитый лозунг Эндрю Ына «ИИ — это новое электричество», Крис Маннинг иронично перевернул его: «Электричество — это новый ИИ». Современные модели обучаются на пулах данных и мощностях, которые в 10 000 и даже 100 000 раз превышают параметры оригинального BERT, требуя колоссальных объемов энергии.

По мнению Криса Маннинга, этот тренд экстенсивного роста не сможет продолжаться долго, поскольку индустрия банально сталкивается с физическим дефицитом доступных текстов и нехваткой вычислительных систем. Впрочем, ученый соглашается, что если инженеры смогут дать исследователям прирост производительности GPU еще на три порядка, модели станут качественнее даже без увеличения объемов текста.

🤖 Способен ли масштаб привести к сильному ИИ (AGI)? 32:19

Огромный интерес в научном сообществе вызвал релиз модели GPT-3 от OpenAI. Разработчики обнаружили, что сверхкрупные языковые модели обретают свойство универсальности (generality). В отличие от BERT, который требовал тонкой настройки (fine-tuning) под каждую отдельную задачу, GPT-3 способна выполнять вычисления на основе нескольких контекстных примеров (few-shot prompting) без изменения весов. Модели можно просто намекнуть на задачу — будь то перевод на испанский язык, ответы на вопросы или сложные лингвистические манипуляции с синтаксисом предложений — и она начинает ее выполнять.

Несмотря на то, что GPT-3 продемонстрировала определенное видение общего интеллекта в противовес узкоспециализированному ИИ прошлых лет, Крис Маннинг твердо убежден, что простое масштабирование не является прямым путем к созданию сильного искусственного интеллекта (AGI). Ученый аргументирует это тем, что человеческому ребенку требуется в разы меньше данных для достижения языковой компетенции. Настоящий разум, по мнению Маннинга, должен обладать способностью гибко учиться в процессе взаимодействия со средой. Большая модель GPT-3 в режиме инференса больше не учится: она лишь сопоставляет входящие паттерны (pattern matching) с тем, что уже видела на этапе гигантского предобучения. Исследователь считает, что гораздо ближе к истинному AGI находится концепция мета-обучения (meta-learning) — создание систем, способных «учиться тому, как учиться» новым задачам.

🎓 Как стать успешным исследователем: советы и карьерные ориентиры 37:40

Крис Маннинг воспитал плеяду успешных ученых. Отвечая на вопрос Эндрю Ына о критериях отбора студентов в свою лабораторию, он выделил несколько ключевых качеств:

Эндрю Ын добавил, что большинство креативных людей объединяет привычка читать литературу из самых разных, порой неожиданных областей, что позволяет им находить неочевидные связи — например, между теоретической лингвистикой и глубоким обучением.

Давая финальный совет молодым специалистам, Маннинг призвал их к гибкости и постоянному расширению кругозора. Индустрия ИИ меняется стремительно: на смену системам правил пришли вероятностные модели, затем доминировали методы опорных векторов (SVM), а сегодня балом правит глубокое обучение. Однако сами нейросети зародились еще в 1950-х годах. Долгосрочный успех, по словам ученого, сопутствует тем, кто умеет синтезировать старые идеи с новыми технологическими возможностями, вовремя замечает перспективные тренды и сохраняет ментальную гибкость.

В завершение встречи ученые тепло вспомнили годы, когда они были соседями по кабинету в Стэнфорде, деля общую стену и регулярно обмениваясь идеями в коридоре.

💬 Цитаты

«Электричество — это новый ИИ, потому что вычислительные и энергетические запросы на обучение моделей растут колоссально.»

Крис Маннинг 30:15

«Секрет успеха в том, чтобы мыслить иначе и стремиться «сломать» устоявшиеся идеи, найдя их слабые места.»

Крис Маннинг 39:17
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
NLP
Обработка естественного языка — область искусственного интеллекта, изучающая взаимодействие компьютеров и человеческого языка.
Трансформер
Архитектура нейронных сетей, основанная на механизме внимания, ставшая стандартом для современных языковых моделей.
Механизм внимания (Attention)
Технология в нейросетях, позволяющая динамически оценивать важность различных элементов входных данных независимо от их дистанции.
AGI
Сильный (общий) искусственный интеллект, способный выполнять любую интеллектуальную задачу на уровне человека.
Сингулярное разложение (SVD)
Математический метод разложения матрицы, используемый для снижения размерности данных и выявления скрытых связей.
📊 Цифры
🗓 Хронология
  1. Конец 1980-х Крис Маннинг начинает изучать машинное обучение, которое тогда считалось маргинальным направлением ИИ.
  2. 2000-е Эра доминирования вероятностного моделирования и статистического фразного машинного перевода.
  3. 2007–2010 Статистический машинный перевод Google достигает приемлемого уровня для перевода веб-страниц.
  4. 2010–2014 Прогресс статистического перевода стопорится; исследователи безуспешно пытаются внедрить синтаксические правила.
  5. 2018 Выход модели BERT от Google, доказавшей колоссальную эффективность предобучения языковых представлений.
⚖️ Другая сторона
Искусственный интеллект Крис Маннинг Эндрю Ын GloVe BERT OpenAI