Почему NLP-модели «жульничают» и помогут ли ручные тесты это исправить?

Yannic Kilcher 2,6 тыс. 18 мин 3 мин 07.04.2020
Главное

В новом видео специалист по глубокому обучению Янник Килчер (Yannic Kilcher) анализирует концепцию «наборов контрастов» (Contrast Sets) — методику оценки моделей обработки естественного языка (NLP), призванную выявить реальную глубину их понимания. Автор видео ставит под сомнение эффективность этого подхода, утверждая, что ручное создание тестов не решает фундаментальную проблему разрыва между человеческими намерениями и статистическим обучением нейросетей.

🧠 Проблема «ленивых» данных и статистических уловок 0:00

Одной из главных проблем современных NLP-систем является их склонность находить кратчайшие пути к ответу вместо полноценного логического вывода . В задачах визуального ответа на вопросы (VQA) модели часто игнорируют саму картинку или предложение, полагаясь на статистические перекосы в обучающих данных .

Килчер приводит в пример типичную ситуацию: если в наборе данных на вопрос «Чем покрыта земля?» ответом почти всегда является «снег», модель перестает анализировать пиксели и просто выдает наиболее вероятное слово .

Проблема, по мнению ведущего, коренится в самом процессе создания датасетов:

🛠 Контрастные наборы: решение от авторов статьи 4:44

Авторы обсуждаемой научной работы предлагают дополнить стандартные обучающие и тестовые выборки так называемыми «контрастными наборами» (contrast sets) . В отличие от обычного тестирования, где проверочные данные берутся из того же распределения, что и обучающие, контрастные примеры создаются вручную авторами датасета .

Суть методики заключается в малых возмущениях (perturbations), которые меняют «золотую метку» (правильный ответ). Янник приводит пример с изображением двух собак :

  1. Текстовое изменение: В предложении «Две похожие собаки стоят лицом к лицу» слово «собаки» меняется на «кошки». Если модель продолжает отвечать «да», значит, она не понимает виды животных .
  2. Количественное изменение: Замена «две» на «три». Это проверяет способность модели считать .
  3. Визуальное изменение: Картинка правится так, чтобы собаки были разного цвета, при этом текст остается прежним («одинаково окрашенные собаки»). Если модель не замечает подвоха, она не понимает концепцию сходства .

Авторы статьи подчеркивают отличие этого метода от «состязательных атак» (adversarial examples). Если в атаках цель — запутать классификатор, оставив смысл неизменным, то в контрастных наборах смысл меняется намеренно, чтобы проверить чувствительность модели к ключевым атрибутам .

📉 Критика Килчера: почему 2D-интуиция обманчива 8:56

Янник Килчер выражает скепсис относительно эффективности такого подхода. Его критика строится на нескольких фундаментальных пунктах.

Во-первых, Килчер считает использование низкоразмерных (2D) примеров для объяснения NLP-моделей плохой практикой . В NLP-моделях количество параметров значительно превышает объем данных, что делает их решающие границы (decision boundaries) гораздо более сложными и непредсказуемыми, чем позволяют представить простые графики .

Во-вторых, возникает проблема «предвзятости автора». Янник отмечает:

🌍 Будущее: заземление языка (Grounded NLP) 16:10

По мнению Килчера, истинная проблема заключается в том, что глубокое обучение по своей природе — это поиск статистических связей, а не понимание смыслов .

«Предлагать контрастные наборы — это как жаловаться, что классификатор ImageNet не умеет летать. Это просто не заложено в его архитектуру и процесс обучения», — иронизирует Янник .

Единственным реальным решением он видит переход к «заземленному NLP» (Grounded NLP). Это направление подразумевает, что модель должна не просто коррелировать текст и пиксели, а взаимодействовать с миром, понимая сущности, их позы, физические свойства и смыслы действий .

В завершение Янник комментирует результат статьи, согласно которому люди легко справляются с контрастными наборами, в то время как ИИ проваливается . Он считает этот факт очевидным, так как людям заранее объясняют задачу («намерение»). Килчер предлагает радикальный эксперимент: дать людям данные в виде закодированных идентификаторов токенов (чисел) без объяснения контекста. В таком случае человек тоже начнет строить лишь статистические догадки и, скорее всего, провалится на тестах точно так же, как и машина .

💬 Цитаты

«Процесс создания датасетов ведет к возникновению смещений и легких решений для моделей, где они просто учат статистические корреляции.»

Янник Килчер 03:45

«Низкоразмерная интуиция очень плохо обобщается на высокоразмерную интуицию NLP-моделей.»

Янник Килчер 11:18

«Заземленный NLP означает, что вы строите то, что действительно понимает мир, сущности и их взаимодействие.»

Янник Килчер 16:39
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VQA (Visual Question Answering)
Задача ИИ, в которой модель должна ответить на текстовый вопрос по содержанию изображения.
Contrast Sets
Тестовые данные, созданные путем внесения минимальных смысловых изменений в исходные примеры.
Grounded NLP
Подход к обучению языковых моделей, связывающий слова с реальными физическими объектами или действиями в мире.
Perturbation
Небольшое контролируемое изменение (возмущение) входных данных для проверки реакции системы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Contrast Sets Visual Question Answering Grounded NLP Yannic Kilcher Deep Learning