Самир Сингх об итогах года в NLP: «Мы находимся на этапе фундаментального самоанализа»

The TWIML AI Podcast 680 1 ч 32 мин 4 мин 01.02.2021
Главное

Обработка естественного языка (NLP) переживает период глубокой трансформации, переходя от простой гонки за точностью на стандартных датасетах к философскому и техническому самоанализу. В масштабном обзоре итогов года на подкасте TWIML AI приглашенный эксперт Самир Сингх, доцент кафедры компьютерных наук Калифорнийского университета в Ирвайне, обсуждает с ведущим Сэмом Чаррингтоном, почему 2020 год стал временем «интроспекции» для отрасли. В фокусе внимания — феноменальный успех GPT-3, фундаментальные ограничения обучения на основе текстовых форм и растущая уязвимость моделей перед «отравлением» данных.

🚀 Масштабирование без границ: Эпоха GPT-3 5:59

Главным событием года, по мнению Самира Сингха, стал выход модели GPT-3 от OpenAI . Хотя архитектурно она является прямым наследником GPT-2, её масштаб изменил правила игры. Модель в 100 раз больше своей предшественницы и в 10 раз больше любой другой модели, существовавшей на момент её выхода .

Сингх выделяет несколько ключевых аспектов этого прорыва:

Несмотря на восторг, Сингх считает, что важно не переоценивать текущие возможности: для человека, не умеющего программировать, GPT-3 еще не стала надежным инструментом создания ПО «с нуля», скорее это продвинутый помощник для профессионалов . Также остро стоит вопрос приватности: исследователи из Беркли обнаружили, что модель может «выдавать» реальные телефонные номера и адреса из обучающей выборки, если использовать специфические промпты .

🧠 Проблема «Осьминога»: Форма против Смысла 33:00

Одним из самых влиятельных теоретических трудов года Сингх называет статью Эмили Бендер и Александра Коллера о восхождении к пониманию естественного языка (NLU) . Авторы выдвигают тезис, что модели, обучающиеся только на форме (текстовых токенах), никогда не смогут постичь смысл (интенцию и связь с реальным миром).

Для иллюстрации Сингх пересказывает мысленный эксперимент про «Осьминога» :

  1. Два человека на разных островах общаются через подводный телеграф.
  2. Сверхразумный Осьминог перехватывает сигналы и идеально выучивает статистические закономерности языка.
  3. Осьминог решает подменить одного из собеседников. Он успешно справляется с повседневной болтовней.
  4. Однако когда один человек просит другого: «На меня напал медведь, что мне делать с этими палками?», Осьминог пасует. Он не знает, что такое медведь, что такое палки в физическом мире и как их применить для защиты .

По словам Сингха, этот тезис подчеркивает фундаментальный предел современных LLM: они ограничены пассивным наблюдением за формой. В противовес этому, другая группа исследователей предлагает пятиуровневую модель развития языка, где высшие уровни включают восприятие (мультимодальность), воплощение в среде (embodiment) и социальное взаимодействие .

☢️ Уязвимости и «отравление» весов 49:59

С ростом использования предобученных моделей (берущихся из открытых репозиториев) возникли новые риски безопасности. Самир Сингх выделяет несколько типов атак:

📊 Кризис оценки: Почему лидерборды лгут 1:06:24

Традиционный подход к оценке моделей — разделение датасета на обучающую и тестовую выборки — Сингх называет «сломанным» . Модели часто просто заучивают статистические «костыли» (shortcuts), характерные для конкретного набора данных, не понимая сути грамматики или логики.

В качестве решения Самир Сингх обсуждает три подхода:

  1. CheckList: Методология (разработанная командой Сингха), которая предлагает тестировать модели как программное обеспечение — проверяя конкретные способности (например, понимание отрицания или синонимов) вместо общего скора .
  2. Контрастные наборы (Contrast Sets): Создание пар предложений с минимальными изменениями, которые меняют смысл (например, замена одного слова в отзыве с позитивного на негативное). Современные модели показывают резкое падение точности на таких тестах .
  3. Динамическое тестирование: Проекты вроде Dynabench от Facebook, где люди постоянно создают новые примеры, на которых текущие модели ошибаются, чтобы предотвратить переобучение под фиксированный лидерборд .

🔮 Будущее: Интерактивность и интерпретируемость 1:20:43

Заглядывая в 2021 год, Самир Сингх прогнозирует развитие нескольких направлений:

Сингх резюмирует, что сейчас — «пугающее, но захватывающее время» для молодых исследователей, так как область находится на перепутье и может развиваться в любом непредсказуемом направлении .

💬 Цитаты

«GPT-3 в некотором смысле — это просто GPT-2 плюс масштаб, но качество генерации заставило всех обратить внимание.»

Самир Сингх 06:13

«Мы находимся на стадии, когда модели выглядят слишком хорошо в одних вещах и фундаментально сломаны в других.»

Самир Сингх 02:25
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Few-shot learning
Способность модели выполнять задачу, получив лишь несколько примеров в контексте, без дообучения.
Zero-shot learning
Выполнение задачи моделью без предварительных примеров именно этой задачи.
Weight Poisoning
Метод атаки, при котором в веса нейросети вносится скрытая уязвимость.
📊 Цифры
🗓 Хронология
  1. Сентябрь 2020 Выход статьи о поведенческом тестировании NLP моделей (CheckList).
  2. Март 2020 Запуск набора данных CORD-19 для исследования COVID-19 методами NLP.
  3. Май 2020 Официальный релиз статьи про GPT-3 от OpenAI.
⚖️ Другая сторона
Искусственный интеллект Sameer Singh GPT-3 OpenAI Hugging Face NLP