Лена Войта об информационном горлышке и ловушках зондирования трансформеров

В рамках проекта Machine Learning Street Talk ведущий Тим Скарфе и его коллеги провели глубокое интервью с Леной Войтой — известным исследователем в области обработки естественного языка (NLP), аспиранткой Эдинбургского и Амстердамского университетов и создательницей популярного интерактивного курса по NLP. Разговор вышел далеко за рамки обсуждения стандартных бенчмарков: участники разобрали фундаментальные механизмы работы трансформеров, причины возникновения галлюцинаций в языковых моделях и ограничения классических методов тестирования нейросетей. Особое внимание в дискуссии было уделено тому, как цели обучения предопределяют «судьбу» внутренних представлений токенов и почему для глубокого понимания искусственного интеллекта необходим строгий аналитический подход.

🧭 Иллюзия целей: почему жесткая оптимизация ведет в тупик 0:39

Перед началом беседы с гостьей ведущий канала Тим Скарфе поделился размышлениями, навеянными прошлым выпуском с Кеннетом Стенли, автором концепции вреда жесткого целеполагания. По мнению Тима Скарфе, ключевым понятием в любой сложной задаче поиска является «обман» (deception) — ситуация, когда промежуточные ориентиры ведут алгоритм или исследователя в ложном направлении. Когда цель амбициозна и требует знаний, которыми человечество еще не обладает (например, создание сильного искусственного интеллекта — AGI), доверять градиенту стандартной оптимизации нельзя. Тим Скарфе утверждает, что если мы будем монотонно масштабировать и улучшать условную GPT-3, это окажется ложным компасом, который никогда не приведет к AGI.

В качестве иллюстрации этого тезиса ведущий привел примеры из эволюционных алгоритмов и краудсорсинговой платформы Picbreeder, где пользователи выращивали изображения. Рассматривая филогенетическое древо генерации сложнейших изображений, таких как череп или контуры животного, Скарфе подчеркнул, что первые промежуточные шаги (stepping stones) визуально совершенно не напоминали итоговый результат. Сначала шел абсолютно дивергентный процесс, ведомый исключительно человеческим интересом и поиском новизны, и лишь на поздних этапах, когда паттерн становился антропоморфным, он превращался в конвергентную оптимизацию. Тим Скарфе считает, что попытка найти сложное изображение напрямую по фиксированному целевому критерию обречена на провал; аналогично, в науке и инженерии фиксация на краткосрочных решениях ослепляет нас, мешая обнаруживать новые фундаментальные проблемы.

Для преодоления этой проблемы в машинном обучении разрабатываются подходы, ориентированные на поиск новизны (Novelty Search) и разнообразия. Скарфе кратко описал эволюцию этих методов:

Классический алгоритм NEAT с фиксированной целевой функцией расстояния до цели в лабиринте часто застревает в локальных минимумах из-за обмана градиента.
Методы Quality Diversity вводят сохранение разнообразия популяции, что улучшает покрытие пространства поиска.
Прямой Novelty Search вообще отказывается от оптимизации расстояния до финальной цели, делая метрикой максимизацию энтропии или покрытия карты, что парадоксальным образом позволяет находить решения сложных задач быстрее.
Алгоритм Go-Explore решает проблемы «отсоединения» (detachment) и «срыва» (derailment), помогая агенту возвращаться к ранее открытым перспективным границам исследования.
Алгоритм POET, разработанный командой Uber, реализует мета-обучение, где параллельно эволюционируют и агенты, и сами среды (проблемы), формируя уникальный, непредсказуемый учебный план.

По мнению ведущего, подобные подходы сбора «промежуточных камней» крайне необходимы в языковом моделировании для преодоления ограничений перплексии, а идеи Кеннета Стенли во многом пересекаются с концепцией генерализации Франсуа Шолле в тесте ARC.

💥 Проблема «преподавательского принуждения» и галлюцинации в Seq2Seq 22:24

Из-за технического сбоя первые 10–15 минут живой беседы с Леной Войтой не были записаны, поэтому соведущий Янник Килчер представил краткую интермедию, восстанавливающую контекст вводной части. Основное внимание на старте было уделено архитектурам Sequence-to-Sequence (Seq2Seq) и механизмам их сбоев в задачах машинного перевода. Янник напомнил, что авторегрессионные модели генерируют текст посимвольно или потокеново: предсказанный токен на шаге $k$ подается на вход для предсказания токена $k+1$.

Однако в процессе обучения используется подход, известный как «принуждение преподавателя» (teacher forcing). Суть метода заключается в том, что вместо потенциально ошибочного токена, который модель сгенерировала бы сама, в систему на каждом шаге принудительно подается эталонный (истинный) токен из обучающей выборки. По словам Янника, это делает обучение математически независимым, позволяет легко распараллеливать вычисления и избавляет от необходимости строить сложные циклы. Проблема вскрывается на этапе инференса (тестирования), когда эталонного перевода нет, и модель вынуждена опираться исключительно на собственные, ранее предсказанные токены. Возникает так называемый эффект несоответствия условий обучения и генерации — exposure bias. Стоит модели допустить малейшую ошибку (например, вместо слова «кошка» выдать «собака»), как эта ошибка начинает накапливаться, уводя контекст все дальше от распределения данных, виденного при обучении.

Развивая эту мысль уже в основной части интервью, Лена Войта объяснила, что в процессе генерации модель разрывается между двумя конфликтующими макро-объективами:

Информационный объектив (перевод источника): модель должна точно переносить смысл исходного предложения в целевой язык.
Языковой объектив (грамматика таргета): модель стремится сделать выходной текст максимально связным, естественным и грамматически корректным на целевом языке.

Лена Войта утверждает, что галлюцинации и другие дефекты перевода возникают тогда, когда один из этих объективов полностью подавляет другой во время инференса. Если побеждает чисто языковой компонент, модель, столкнувшись со сложным или незнакомым контекстом, фактически «сдается». Она решает, что оптимальный способ минимизировать потери — просто генерировать красивый, грамматически безупречный текст на целевом языке, который при этом абсолютно никак не связан с оригиналом. Это и есть классическая галлюцинация. В противоположном случае, когда доминирует информационная составляющая без оглядки на историю генерации, модель может скатываться в бесконечные повторения отдельных слов («кошка, кошка, кошка»), игнорируя структуру языка.

По словам Лены Войты, различные методы борьбы с exposure bias (например, добавление шума или аугментация в процессе обучения) помогают лишь частично, но не искореняют галлюцинации полностью, поскольку фундаментальный баланс сил между источником и префиксом остается нестабильным.

🔍 Анатомия зондирования: почему точность классификаторов лжет 57:17

Значительная часть научных работ Лены Войты посвящена анализу и интерпретации внутренних слоев нейросетей. Ведущие отметили, что пока большая часть NLP-сообщества одержима погоней за высокими баллами на бенчмарках (таких как WMT или BLEU), Лена фокусируется на объяснении скрытых процессов. Гостья призналась, что ее математический бэкграунд требует определенности и спокойствия, которые в эмпирическом машинном обучении найти трудно, поэтому детальный анализ моделей стал для нее способом внести ясность в хаотичный экспериментальный мир.

Одним из центральных инструментов такого анализа в NLP традиционно является «зондирование» (probing). Лена Войта подробно объяснила суть классического подхода: исследователи берут скрытые векторные представления, полученные на определенном слое обученной модели (например, BERT или ELMo), и обучают поверх них простой диагностический классификатор (зонд), чтобы предсказать какое-либо лингвистическое свойство — например, часть речи (POS-тег) или синтаксическую зависимость. Если точность (accuracy) такого классификатора оказывается высокой (например, 96%), принято делать вывод, что модель успешно закодировала данное лингвистическое знание.

Однако Лена Войта утверждает, что стандартное зондирование по метрике точности принципиально некорректно и вводит исследователей в заблуждение. Она привела следующие аргументы и примеры:

Феномен случайных сетей: если взять абсолютно случайную, необученную модель с замороженными весами и пропустить через нее текст, поверх полученных эмбеддингов все равно можно обучить классификатор с крайне высокой точностью. Из-за того, что сеть видит структуру предложения целиком, информация в векторах присутствует, но это не значит, что сама модель ее выучила или использует.
Контрольные задачи (Control Tasks): в исследовании Хьюитта и Ляна (Hewitt & Liang) было показано, что классические зонды с одинаковым успехом предсказывают как реальные части речи, так и абсолютно случайные метки, привязанные к словам случайным образом. Метрика точности фиксирует способность внешнего зонда извлечь информацию ценой собственных усилий, а не факт того, что модель сама репрезентирует это свойство.

В качестве контрпримера, где модель действительно сама кодирует абстрактное свойство, Лена Войта напомнила о знаменитой работе OpenAI, в которой был обнаружен unsupervised «нейрон сентимента» в модели, обученной на отзывах Amazon. В этом случае для извлечения тональности достаточно линейного классификатора с одним-единственным весом и буквально 10 примеров для обучения.

Для решения этой методологической проблемы Лена Войта и ее соавторы предложили концепцию «информационно-теоретического зондирования» на основе длины минимального описания (Minimum Description Length, MDL). Метод измеряет не просто финальное качество предсказания, а то, сколько усилий потребовалось для извлечения этого знания. Практически это оценивается через кодовую длину данных с учетом сложности самого классификатора или через объем обучающих примеров, необходимых для выхода на плато. Если знание закодировано моделью естественно, MDL будет минимальной, тогда как для извлечения скрытых случайных связей потребуется громоздкая структура классификатора и огромный объем данных, что сразу отразится на метрике и позволит отсечь ложные корреляции.

🧬 Эволюция представлений в трансформерах и информационное «узкое горлышко» 1:11:56

В продолжение темы анализа внутренних состояний Лена Войта рассказала о своем исследовании эволюции представлений токенов в архитектуре Transformer под воздействием различных целевых функций (Objectives). В этой работе ученые применили классическую теорию информационного «узкого горлышка» (Information Bottleneck) Нафтали Тишби. Согласно этой концепции, в процессе обучения сеть пытается найти оптимальный баланс: минимизировать взаимную информацию с входными данными $X$ (сжатие, забывание шума) и одновременно максимизировать взаимную информацию с целевой переменной $Y$ (сохранение полезного сигнала для прогноза).

Лена Войта подчеркнула, что в контексте языковых моделей ситуация сложнее, поскольку токены внутри трансформера постоянно взаимодействуют друг с другом через слои внимания. Она использовала яркую аналогию: «Токены рождаются чистыми, зная лишь свою идентичность и позицию. Но у них есть предназначение, цель, к которой они должны прийти в конце. Их взаимодействия определяются этой финальной целью».

Эксперименты Лены Войты показали, что характер изменения взаимной информации кардинально различается в зависимости от задачи обучения:

Языковое моделирование (Language Modeling, тип GPT): по мере продвижения от нижних слоев к верхним модель последовательно и безвозвратно теряет информацию о прошлом (входном токене), переключая ресурсы на формирование предсказания о будущем токене. На графиках взаимной информации это выглядит как плавная квадратичная кривая.
Машинный перевод (Machine Translation, NMT): векторы токенов постепенно насыщаются контекстом, однако глубокого переформатирования не происходит. Модель бережно сохраняет исходную идентичность слов и, что примечательно, лучше всего удерживает позиционную информацию токенов в пространстве.
Маскированное языковое моделирование (Masked Language Modeling, тип BERT): здесь процесс носит ярко выраженный немонотонный, двухстадийный характер.

На первой стадии — «кодировании контекста» (context encoding) — токен частично забывает свою собственную идентичность, активно собирая информацию о соседних словах и формируя абстрактное семантическое представление окружения. На второй стадии — «кодировании и реконструкции токена» (token reconstruction), происходящей на самых верхних слоях, — трансформер начинает резко восстанавливать исходную идентичность токена из накопленного контекста, чтобы выполнить задачу претрейна.

Это открытие, по словам Лены Войты, объясняет, почему при использовании популярной метрики BERTScore (основанной на эмбеддингах BERT) наилучшие результаты получаются при извлечении векторов из средних слоев, а не из финальных. На самом верху BERT перестает быть контекстуальным и превращается в инструмент жесткой реконструкции конкретного слова.

🎓 Переосмысление образования: интерактивный курс NLP и «исследовательское мышление» 1:36:40

Важной вехой в публичной деятельности Лены Войты стало создание авторского интерактивного курса по NLP, который получил признание в академической среде и был отмечен Себастьяном Рудером. Рассказывая об истории создания проекта, Лена поделилась личной историей: курс родился летом во время вынужденной шестимесячной самоизоляции в Москве. Она покинула компанию Яндекс и планировала переехать в Эдинбург весной, однако из-за пандемии COVID-19 и задержки британской визы оказалась заблокирована в пустой квартире со своим чемоданом. Отсутствие коммуникации и определенности подтолкнуло ее к тому, чтобы сублимировать энергию в масштабный образовательный продукт.

Лена Войта сформулировала свою главную претензию к классическому университетскому образованию: стандартный формат лекций абсолютно не учитывает индивидуальный темп студентов и зачастую перегружает их списками сухих научных статей, которые новички физически не способны продуктивно читать. Ее курс построен на принципиально иных началах:

Максимальная визуализация и интерактивность: лекции оформлены в виде подробных лонгридов с анимациями. Например, в разделе про эмбеддинги интегрированы интерактивные t-SNE проекции, позволяющие студенту буквально «гулять» по векторному пространству, изучая его свойства.
Сжатые обзоры вместо громоздких списков: Лена снабдила подборки релевантных статей краткими выжимками (в 2–3 предложения), раскрывающими суть идеи, будь то борьба с гендерными смещениями в Word2Vec или семантические сдвиги. Студент может за 10 минут составить ментальную карту темы, а уже затем кликнуть и читать оригинал.
Упражнения на «исследовательское мышление» (Research Thinking Exercises): это наиболее инновационная часть курса, вызвавшая наибольший восторг у аудитории.

Суть упражнений Research Thinking заключается в преодолении психологического барьера перед научной деятельностью. Лена Войта отметила, что когда молодые исследователи или стажеры читают готовые статьи, у них возникает комплекс неполноценности: «Это так круто, но как авторы до этого додумались? Я никогда так не смогу». В ее курсе после объяснения базового концепта студенту предлагается проблемный сценарий и задается вопрос: «Какие недостатки у этого метода и как бы вы их устранили?». Пользователь должен размышлять над этим (желательно день или два), и лишь затем нажать кнопку, чтобы увидеть ответ — как эту проблему решила реальная группа ученых в известной публикации. По мнению Лены, такой подход активирует долгосрочную память и создает в мозге прочный каркас, на который новые знания «навешиваются» органично.

💻 Математика против кода: стек технологий и курьезы Яндекс.Переводчика 1:52:10

В финальной части беседы Тим Скарфе попросил Лену приоткрыть завесу тайны над ее повседневным технологическим стеком и стилем работы. Ответ гостьи оказался неожиданным и вызвал улыбку у ведущих. Выяснилось, что Лена создавала графику и анимации для своего всемирно известного курса с помощью базовых инструментов. По ее словам, рецепт визуального успеха прост:

Проектирование логики и создание графических элементов в обычном Microsoft PowerPoint.
Снятие скриншотов кнопкой Print Screen.
Финальная склейка и базовая обработка в Microsoft Paint.

Что касается программирования, Лена Войта открыто призналась: «Если честно, я не очень люблю кодить. Программирование — это мое личное узкое горлышко. Я больше ученый, чем инженер». Своим любимым этапом работы она назвала проектирование абстрактных концепций, выстраивание логики и написание самих научных статей. В качестве экспериментальной базы она использует Python, а в качестве фреймворка — TensorFlow. Выбор TensorFlow обусловлен не личными симпатиями, а долгой работой в исследовательском подразделении Яндекса (Yandex Research), где инфраструктура взаимодействия с командой Яндекс.Переводчика была жестко завязана на этот инструмент.

Вспоминая период работы в Яндексе, Лена рассказала курьезную историю о том, как устроена индустрия найма в IT-индустрии. Когда она впервые проходила собеседование на позицию исследователя, ее предупредили о наличии сложного хардкорного этапа по написанию кода на C++. Будучи чистым математиком, никогда не видевшим реального продакшн-кода, она просто открыла легендарный учебник Бьёрна Страуструпа, прочитала первые несколько глав, чтобы понять синтаксис языка, и благодаря развитому логическому мышлению успешно сдала алгоритмическое интервью на доске. Память об этом осталась в корпоративных мифах: спустя время, когда исследователям требовалась помощь инженеров для интеграции моделей в продакшн, разработчики отвечали: «Зачем вы к нам пришли? У вас же есть Лена Войта, она бог C++, отдайте задачу ей!». Лена со смехом резюмировала, что это наглядно демонстрирует оторванность классических кодинг-интервью от реальной практики.

В завершение встречи собеседники сошлись во мнении, что современные большие языковые модели, несмотря на все свои поразительные результаты, остаются инструментами сложного статистического анализа текста, и их деятельность нельзя приравнивать к подлинному человеческому пониманию смыслов.