Крис Маннинг: «Простое масштабирование — не путь к AGI»

DeepLearning.AI 18,2 тыс. 46 мин 3 мин 14.10.2020
Главное

Эволюция обработки естественного языка: Крис Маннинг об истории и будущем NLP 0:02

Интервью с Крисом Маннингом, профессором Стэнфордского университета и директором Стэнфордской лаборатории ИИ, проливает свет на трансформацию области обработки естественного языка (NLP) — от эпохи жестких лингвистических правил до господства нейросетей и трансформеров. Маннинг, один из самых цитируемых исследователей в этой сфере, делится экспертным взглядом на то, как машинное обучение перевернуло представление об анализе человеческой речи.

От лингвистики к машинному обучению 🧠 1:08

Путь Криса Маннинга в ИИ начался с интереса к когнитивным аспектам языка и тому, как маленькие дети способны овладевать сложнейшими грамматическими структурами. В конце 1980-х годов в лингвистике доминировала парадигма Ноама Хомского, утверждавшая, что человек обладает врожденными механизмами для усвоения языка, так как освоение «только из данных» казалось невозможным.

Маннинг вспоминает, что в то время машинное обучение было маргинальным направлением:

По словам исследователя, его привлекла сама идея обучения компьютеров на основе данных, что в итоге и предопределило его академическую карьеру.

Революция трансформеров и отказ от явного синтаксиса ⚙️ 7:34

До эпохи глубокого обучения в NLP доминировали вероятностные методы над символьными структурами. Важным этапом было статистическое машинное перевод (MT) на основе фраз. Google, например, изначально использовала правила компании SYSTRAN, но позже перешла на статистические модели, что радикально улучшило качество перевода.

Однако период 2010–2014 годов характеризовался застоем, так как попытки внедрить синтаксические структуры в перевод работали лишь для ограниченного числа языковых пар.

Прорыв произошел с внедрением нейронных методов:

Как отмечает Маннинг, ирония ситуации заключается в том, что лучшие результаты были достигнуты, когда разработчики стали обращать меньше внимания на лингвистический синтаксис и больше — на данные и вычислительную мощность.

Масштабирование: стоит ли оно того? 📈 27:19

Современный тренд на создание гигантских моделей, таких как GPT-3, основан на экспоненциальном росте вычислительных ресурсов и данных. Маннинг подчеркивает, что с 2018 года (после выхода BERT) прогресс в NLP во многом движим «закидыванием проблемы ресурсами».

Гость интервью высказывает скепсис относительно того, что простое увеличение масштабов является путем к AGI (искусственному общему интеллекту):

Советы будущим исследователям 💡 37:40

Крис Маннинг считает, что сегодня — лучшее время для начала карьеры в ИИ благодаря огромному спросу в индустрии и науке. Однако он дает начинающим специалистам несколько важных рекомендаций:

  1. Развивайте широту интересов: Не стоит фокусироваться только на текущих доминирующих методах (сейчас это глубокое обучение), так как технологии развиваются быстро, а старые идеи часто переоткрываются в новом контексте.
  2. Будьте критичны: Умение «сломать» существующий метод, задаваясь вопросом «почему они делают это именно так?», — ключевой навык креативного исследователя.
  3. Читайте «дико» и широко: Способность находить связи между лингвистикой, математикой и компьютерными науками позволяет делать по-настоящему прорывные открытия.

Маннинг заключает: секрет успеха заключается в том, чтобы держать свои «антенны» настроенными на новые идеи, оставаться адаптивным и готовым менять направление исследований.

💬 Цитаты

«Электричество — это новый ИИ.»

Крис Маннинг 30:01

«Большинство людей просто читают статьи и следуют им. Секрет успеха — мыслить иначе.»

Крис Маннинг 38:51
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер
Современная архитектура нейросети, основанная на механизме внимания, позволяющая эффективно обрабатывать последовательности данных.
Метаобучение
Подход к машинному обучению, при котором модель учится эффективно осваивать новые задачи, опираясь на предыдущий опыт обучения.
Внимание (Attention)
Механизм, позволяющий модели фокусироваться на наиболее важных частях входной последовательности при генерации выхода.
Билинейное внимание
Метод вычисления весов внимания через умножение векторов на промежуточную матрицу.
SVD (Сингулярное разложение)
Метод линейной алгебры, используемый для снижения размерности данных, часто применялся в раннем анализе смысла слов.
📊 Цифры
🗓 Хронология
  1. Конец 1980-х Крис Маннинг начинает изучать машинное обучение в Австралии.
  2. 2007–2010 Эпоха доминирования статистического машинного перевода на основе фраз.
  3. 2010–2014 Период застоя в области машинного перевода.
  4. 2014 Появление первых успешных нейросетевых моделей перевода и механизма внимания (Баданов, Чо).
  5. 2018 Выход модели BERT, показавшей эффективность предобученных языковых моделей.
⚖️ Другая сторона
Искусственный интеллект Chris Manning DeepLearning.AI NLP Transformers Machine Learning