Лена Войта об анализе моделей: «Точность — это редукционизм»

Machine Learning Street Talk 11,7 тыс. 1 ч 58 мин 3 мин 23.01.2021
Главное

Исследовательская интуиция в мире NLP: интервью с Леной Войта 21:07

NLP-исследователь Лена Войта (Lena Voita) и ведущий канала Machine Learning Street Talk обсудили сложности интерпретации современных языковых моделей, проблему галлюцинаций в нейронном машинном переводе (NMT) и важность обучения через критическое мышление. Основная идея беседы заключается в том, что современное сообщество зачастую чрезмерно полагается на простые метрики качества, игнорируя глубинные процессы того, как модели «усваивают» информацию и почему они приходят к определенным выводам.

🎭 Природа галлюцинаций и смещение при экспозиции 22:24

Ведущий и гостья подробно разобрали, почему модели машинного перевода склонны к ошибкам. По словам Лены Войты, галлюцинации часто возникают из-за того, что в процессе генерации модель перестает опираться на входные данные (source) и чрезмерно фокусируется на уже сгенерированном контексте (prefix).

Основные механизмы сбоев:

🔍 Проблемы классического пробинга (зондирования) 35:33

Лена Войта утверждает, что стандартные методы анализа нейросетей, такие как классический пробинг (измерение точности линейного классификатора поверх представлений модели), часто вводят в заблуждение.

🧠 Динамика обучения и эволюция представлений 40:17

В совместной работе Войта исследовала, как меняются представления токенов при прохождении через слои трансформера. Она связывает этот процесс с «информационным узким местом» (information bottleneck):

  1. Забывание и сохранение: Модель «сжимает» вход, отсекая шум и сохраняя лишь релевантную для предсказания информацию.
  2. Различия в архитектурах:
    • BERT (MLM): Сначала кодирует контекст, а на последних слоях восстанавливает идентификатор токена.
    • Машинный перевод: Представления уточняются контекстом, но идентификация токена сохраняется лучше, чем в языковых моделях.

Войта отмечает, что процесс обучения нейросетей немонотонен: он проходит через несколько четко выраженных этапов. Она также подчеркивает, что статистические языковые модели не «понимают» мир в человеческом смысле, а лишь эффективно аппроксимируют статистику данных.

🎓 Образовательная философия: NLP-курс 46:47

Созданный Леной Войтой курс стал ответом на нехватку интерактивных и интуитивно понятных материалов. Ее подход базируется на трех столпах:

💬 Цитаты

«В математике вам не нужно ничего знать и ничего делать. Можно просто вывести все, что хочешь.»

Лена Войта 0:12

«Точность — это очень редукционистское число, похожее на греческие буквы в финансах, выбрасывающее массу информации.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Галлюцинации
Ситуация, когда модель генерирует грамматически верный, но семантически не связанный с входным сигналом текст.
Пробинг (Probing)
Метод анализа, при котором поверх внутренних представлений модели обучается классификатор для измерения их свойств.
MDL (Minimum Description Length)
Подход, оценивающий сложность данных через их сжатие; используется для оценки качества представлений модели.
Information Bottleneck
Теоретическая модель, описывающая, как нейросеть «сжимает» информацию об инпуте, сохраняя релевантные для выхода признаки.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Lena Voita NLP Machine Learning Street Talk Neural Machine Translation Minimum Description Length