Почему NLP-модели «жульничают» и помогут ли ручные тесты это исправить?

В новом видео специалист по глубокому обучению Янник Килчер (Yannic Kilcher) анализирует концепцию «наборов контрастов» (Contrast Sets) — методику оценки моделей обработки естественного языка (NLP), призванную выявить реальную глубину их понимания. Автор видео ставит под сомнение эффективность этого подхода, утверждая, что ручное создание тестов не решает фундаментальную проблему разрыва между человеческими намерениями и статистическим обучением нейросетей.

🧠 Проблема «ленивых» данных и статистических уловок 0:00

Одной из главных проблем современных NLP-систем является их склонность находить кратчайшие пути к ответу вместо полноценного логического вывода . В задачах визуального ответа на вопросы (VQA) модели часто игнорируют саму картинку или предложение, полагаясь на статистические перекосы в обучающих данных .

Килчер приводит в пример типичную ситуацию: если в наборе данных на вопрос «Чем покрыта земля?» ответом почти всегда является «снег», модель перестает анализировать пиксели и просто выдает наиболее вероятное слово .

Проблема, по мнению ведущего, коренится в самом процессе создания датасетов:

Сбор данных часто происходит через краудсорсинговые платформы вроде Mechanical Turk .
Разметчики, следуя инструкциям создавать визуальные вопросы, часто проявляют «лень» и задают однотипные вопросы по самым очевидным деталям изображения .
Это приводит к возникновению «систематических смещений» (biases), где модель учит корреляции, а не реальные концепции .

🛠 Контрастные наборы: решение от авторов статьи 4:44

Авторы обсуждаемой научной работы предлагают дополнить стандартные обучающие и тестовые выборки так называемыми «контрастными наборами» (contrast sets) . В отличие от обычного тестирования, где проверочные данные берутся из того же распределения, что и обучающие, контрастные примеры создаются вручную авторами датасета .

Суть методики заключается в малых возмущениях (perturbations), которые меняют «золотую метку» (правильный ответ). Янник приводит пример с изображением двух собак :

Текстовое изменение: В предложении «Две похожие собаки стоят лицом к лицу» слово «собаки» меняется на «кошки». Если модель продолжает отвечать «да», значит, она не понимает виды животных .
Количественное изменение: Замена «две» на «три». Это проверяет способность модели считать .
Визуальное изменение: Картинка правится так, чтобы собаки были разного цвета, при этом текст остается прежним («одинаково окрашенные собаки»). Если модель не замечает подвоха, она не понимает концепцию сходства .

Авторы статьи подчеркивают отличие этого метода от «состязательных атак» (adversarial examples). Если в атаках цель — запутать классификатор, оставив смысл неизменным, то в контрастных наборах смысл меняется намеренно, чтобы проверить чувствительность модели к ключевым атрибутам .

📉 Критика Килчера: почему 2D-интуиция обманчива 8:56

Янник Килчер выражает скепсис относительно эффективности такого подхода. Его критика строится на нескольких фундаментальных пунктах.

Во-первых, Килчер считает использование низкоразмерных (2D) примеров для объяснения NLP-моделей плохой практикой . В NLP-моделях количество параметров значительно превышает объем данных, что делает их решающие границы (decision boundaries) гораздо более сложными и непредсказуемыми, чем позволяют представить простые графики .

Во-вторых, возникает проблема «предвзятости автора». Янник отмечает:

Инструкции для сборщиков данных создавали те же самые авторы .
Если теперь они же будут вручную создавать «честные» тесты, это может стать еще более предвзятым процессом, чем распределенный сбор данных через сотни разных людей .
Создать вручную достаточное количество примеров, чтобы покрыть все «степени свободы» человеческого намерения, практически невозможно .

🌍 Будущее: заземление языка (Grounded NLP) 16:10

По мнению Килчера, истинная проблема заключается в том, что глубокое обучение по своей природе — это поиск статистических связей, а не понимание смыслов .

«Предлагать контрастные наборы — это как жаловаться, что классификатор ImageNet не умеет летать. Это просто не заложено в его архитектуру и процесс обучения», — иронизирует Янник .

Единственным реальным решением он видит переход к «заземленному NLP» (Grounded NLP). Это направление подразумевает, что модель должна не просто коррелировать текст и пиксели, а взаимодействовать с миром, понимая сущности, их позы, физические свойства и смыслы действий .

В завершение Янник комментирует результат статьи, согласно которому люди легко справляются с контрастными наборами, в то время как ИИ проваливается . Он считает этот факт очевидным, так как людям заранее объясняют задачу («намерение»). Килчер предлагает радикальный эксперимент: дать людям данные в виде закодированных идентификаторов токенов (чисел) без объяснения контекста. В таком случае человек тоже начнет строить лишь статистические догадки и, скорее всего, провалится на тестах точно так же, как и машина .