Сара Хукер: «Качественные аннотации важнее алгоритмов подкрепления в RLHF»

В новом выпуске подкаста Machine Learning Street Talk исследовательница Сара Хукер (Sara Hooker) обсуждает фундаментальные вызовы в области справедливости, интерпретируемости и эффективности языковых моделей. Главная идея беседы заключается в том, что текущая гонка за размером моделей маскирует критическую необходимость глубокой работы с данными и понимания динамики обучения. Центральное место в дискуссии занимает переосмысление предвзятости ИИ не просто как проблемы данных, но как комплексного баланса между архитектурой, аппаратным обеспечением и эволюционирующими человеческими ценностями.

🛠️ Наследие «аппаратной лотереи» и путь Сары Хукер 0:00

Сара Хукер получила известность в индустрии благодаря работе в Google Brain и ряду влиятельных научных публикаций. Она основала некоммерческую исследовательскую лабораторию Cohere for AI, направленную на решение сложных задач машинного обучения и расширение доступа к исследованиям по всему миру. Помимо этого, она является сооснователем инициативы Trustworthy Machine Learning Initiative, входит в консультативный совет журнала Patterns и руководит локальной некоммерческой организацией Delta Analytics в районе залива Сан-Франциско. Среди её знаковых работ выделяются исследования предвзятости в компактных моделях и прунинга для низкоресурсного машинного перевода.

Около 18 месяцев назад в рамках подкаста Machine Learning Street Talk уже обсуждалась её знаменитая концепция «аппаратной лотереи». Суть этой идеи заключается в том, что успех конкретной исследовательской концепции в компьютерных науках зачастую определяется не её внутренней эффективностью или превосходством, а совместимостью с доступным на данный момент аппаратным и программным обеспечением. Как утверждает Сара Хукер, историческое развитие вычислительной техники сильно зависело от этого фактора, а растущая гетерогенность современного рынка железа может сделать выгоду от вычислительных достижений крайне неравномерной. Для смягчения этой проблемы исследовательница предлагает создавать улучшенные механизмы обратной связи, включая специализированные языки (DSL), автоподстройку параметров алгоритмов и более точные инструменты профилирования.

⚖️ Три барьера на пути к справедливости ИИ 2:50

В ходе беседы в лондонском офисе Cohere собеседники обратились к текущему состоянию исследований справедливости (fairness) в машинном обучении. По мнению Сары Хукер, сегодня перед учеными стоят три главных барьера:

Динамическая природа ценностей. По определению гостьи, индустрия привыкла относиться к справедливости как к статичному мгновенному снимку во времени. В реальности же человеческие ценности постоянно дрейфуют. Сара Хукер приводит аналогию с комедийным шоу десятилетней давности: то, что казалось смешным тогда, сегодня может восприниматься как абсолютно неприемлемое. Модели должны уметь адаптироваться к таким сдвигам распределения.
Иллюзия размеченных данных. Разработчики часто исходят из ложной предпосылки, будто они заранее знают, каких именно перекосов стоит опасаться, и обладают исчерпывающими метками для аудита. На практике же большая часть реальных массивов данных, собранных из интернета, не имеет разметки, что превращает академические подходы в решение «игрушечных задач».
Культурно-географические различия. Представления о правильном и справедливом поведении алгоритма кардинально отличаются в зависимости от региона и культуры. Это напрямую связано с фундаментальной задачей обобщения (generalization) в машинном обучении — как заставить модель адекватно ориентироваться в поликультурном пространстве.

Ведущий высказал мнение, что попытка свести сложные социальные явления к жестким классам и меткам — это опасная форма редукционизма, привносящая огромные искажения еще на этапе проектирования системы. Сара Хукер согласилась с этим тезисом, подчеркнув, что человеческая разметка таких понятий, как токсичность или расовая принадлежность, изначально страдает от высокой вариативности и субъективных искажений аннотаторов.

🧠 Справедливость, сознание и иллюзия простоты 6:42

Отвечая на вопрос ведущего о том, сопоставима ли сложность определения «справедливости» с такими комплексными феноменами, как интеллект или сознание, Сара Хукер провела четкую границу. По её мнению, разговор о справедливости — это прежде всего разговор об осознанном ограничении поведения модели. Зачастую задача исследователя состоит в том, чтобы заставить алгоритм игнорировать исторические перекосы, содержащиеся в обучающей выборке.

В то же время, как отмечает гостья, попытки симулировать сознание или причинно-следственные связи направлены на эмуляцию человеческого разума для робастной навигации в мире, а не на сдерживание системы. Собеседники сошлись во мнении, что эта тема слишком быстро уходит в плоскость чистой философии. Ведущий напомнил о позициях известных мыслителей: о летучих мышах Томаса Нагеля, ограничениях когнитивных способностей по Ноаму Хомскому и теории Дэвида Чалмерса, который считает сознание «магической надстройкой» над функциональным поведением системы.

📉 Предвзятость моделей против предвзятости данных 8:10

Одним из ключевых моментов дискуссии стало обсуждение природы возникновения алгоритмических ошибок. Ведущий напомнил о знаменитом твите главы ИИ-направления Meta Яна ЛеКуна, который утверждал, что предвзятость нейросетей — это исключительно проблема смещения в данных. Сара Хукер на протяжении долгого времени последовательно оппонирует этому подходу, доказывая важность внутренней предвзятости самих моделей.

Как объясняет исследовательница, в эпоху гигантских нейросетей критически возрастает их склонность к простому заучиванию (memorization). В зависимости от архитектурных решений, увеличение масштаба модели может как улучшить репрезентацию редких признаков из «длинного хвоста» распределения, так и усугубить проблему их бездумного запоминания.

Более того, Сара Хукер указывает на неочевидные компромиссы при оптимизации целей:

Внедрение методов конфиденциальности, таких как градиентный клиппинг (gradient clipping) или инъекция шума, призвано предотвратить утечку данных.
Однако этот шаг принудительно подавляет способность сети обучаться на низкочастотных атрибутах.
В итоге алгоритм жертвует качеством работы с недопредставленными группами ради защиты приватности, что напрямую бьет по справедливости системы.

🔍 Эволюция интерпретируемости: от акробатики к белым ящикам 10:12

Индустрия долгое время полагалась на методы post-hoc интерпретируемости (такие как SHAP, LIME), которые пытаются объяснить логику уже полностью обученной «черной коробки». Сара Хукер критикует этот подход, сравнивая его с акробатическими трюками на финишной прямой: разработчики надеются получить понятные ответы, хотя изначально никак не оптимизировали модель под эту задачу. Кроме того, подобные методы дают объяснения лишь для единичных примеров (single-example explanations), что делает аудит коммерческих систем с миллионами запросов практически невозможным.

В качестве перспективной альтернативы гостья выделяет явную оптимизацию под интерпретируемость в процессе обучения и отслеживание того, как именно признаки формируются вокруг решающей границы (decision boundary). Ведущий упомянул сплайновую теорию нейросетей Рэндалла Балестриеро (Randall Balestriero), согласно которой многослойный перцептрон разбивает окружающее пространство на аффинные линейные многогранники.

Сара Хукер согласилась, что понимание относительной сложности примеров имеет колоссальное значение. По её словам, сложные или редкие атрибуты всегда оказываются в опасной близости к решающей границе, где позиции модели наиболее шатки. Понимание этой топологии позволяет перейти к адаптивным вычислениям (adaptive computation) — вместо того чтобы тратить одинаковое количество ресурсов на прогон банальных и сверхсложных примеров, модель может динамически распределять свою емкость.

🏁 Гонка за SOTA и адаптивные вычисления 14:56

Современная культура погони за наивысшими показателями на бенчмарках (SOTA chasing) вызывает у Сары Хукер определенный скепсис. Сегодня доминирует простая формула успеха: залить проблему огромным объемом данных и кратно нарастить количество параметров. Исследовательница признает, что этот рецепт доказал свою эффективность на множестве задач, однако он уводит индустрию в сторону от решения проблемы эффективности.

По мнению гостьи, отрасль должна сфокусироваться на качестве данных и методах умного сэмплинга, а не на бездумном расширении монолитных моделей. Способность алгоритма отражать человеческие ценности напрямую зависит от его генерализации и динамической гибкости, а не от статических метрик эффективности. В условиях, когда разные группы пользователей имеют противоположные ожидания (например, разные критерии токсичности текста в США и других странах), решением может стать использование адаптивных наборов для валидации (development sets) и методов непрерывного обучения (continual learning).

👥 Ансамблирование против худших ошибок 21:51

Сара Хукер анонсировала совместную работу с Рэндаллом Балестриеро, посвященную исследованию ансамблей. Традиционно считается, что объединение предсказаний нескольких нейросетей быстро упирается в плато эффективности — добавление более 5–6 моделей уже не приносит ощутимого прироста общей точности.

Однако исследователи обнаружили поразительную закономерность:

Метрики выигрыша для худших случаев ошибок (worst-case error) на редких признаках не выходят на плато.
Даже самый простой униформный ансамбль, где модели отличаются исключительно случайной инициализацией весов (инициализирующим стохастическим шумом), демонстрирует резкое снижение ошибок на сложных примерах.
Объединение «мнений» моделей в точках наибольшего несогласия оказывается невероятно дешевым и эффективным способом защитить интересы уязвимых подгрупп данных, значительно улучшая показатели справедливости системы.

🪵 Дилемма длинного хвоста: мусор или уникальность? 23:25

«Длинный хвост» распределения данных часто воспринимается разработчиками как нечто монолитное, однако Сара Хукер призывает разделять его компоненты. Высокая неопределенность модели при оценке примера может быть вызвана двумя принципиально разными причинами:

Атипичные примеры (Atypical data). Это редкие, уникальные, но семантически верные и ценные случаи.
Шум и мусор (Junk/Noisy data). Это полностью бессмысленные, испорченные данные.

Текущие тривиальные стратегии вроде простого апвейтинга (увеличения веса) всех объектов из длинного хвоста часто проваливаются, поскольку если выборка состоит преимущественно из мусора, модель начинает просто заучивать и легитимизировать этот шум. Ключевым критерием дифференциации, по мнению Сары Хукер, является скорость обучаемости (learnability). Шум представляет собой неустранимую (алеаторическую) ошибку, поэтому скорость его усвоения моделью не меняется со временем. Атипичные же данные содержат устранимую (эпистемическую) ошибку — при предоставлении достаточного объема контекста или емкости сети они демонстрируют четкий прогресс в обучении.

В совместной работе с Даниэль Д'Суза (Danielle D'Souza) «Повесть о двух длинных хвостах» (A Tale of Two Long Tails) авторы предложили использовать профили потерь в процессе обучения для выявления природы неопределенности. В качестве примера из реальной практики Сара Хукер привела датасет Common Crawl. В нем присутствует как откровенный мусор (обрывки HTML-кода, случайные знаки препинания), так и атипичные данные (тексты на редких языках). Последние обладают структурной целостностью и семантикой, и если добавить в систему больше подобных примеров, модель успешно освоит синтаксис этого языка.

🗜️ Метод «простых битов» (Simple Bits) 30:11

В другой работе, написанной Сарой Хукер в соавторстве с Робином во время работы в Google Brain («Когда меньше значит больше: упрощение входных данных помогает пониманию нейросетей»), исследователи зашли к проблеме интерпретируемости с совершенно иной стороны. Вместо пост-хок анализа они внедрили фильтрацию информации непосредственно в цикл оптимизации.

Используя простую генеративную модель, авторы оценивали объем входной информации в битах. Задача формулировалась как минимизация количества битов при строгом сохранении итоговой точности классификации. Для тестирования надежности метода был создан искусственный стенд: к изображениям примешивали заведомо избыточную информацию (например, узоры из полос), сохраняя оригинальные метки классов. Алгоритм Simple Bits успешно научился отсекать этот шум, оставляя лишь те крупицы визуальных данных, на которые нейросеть реально опирается при формировании решающей границы. Данный подход позволяет наглядно продемонстрировать инженерам, в какой именно момент сжатия начинается деградация точности и какие признаки являются фундаментальными для модели.

💬 Языковые модели и «ворчливый» взгляд на RLHF 35:38

Обсуждая тектонические сдвиги в индустрии после релиза ChatGPT, Сара Хукер отметила, что основной фокус сместился с простого сканирования веб-страниц на ювелирную селекцию данных на этапе тонкой настройки (fine-tuning) и обработки инструкций.

При этом у гостьи есть весьма критичное мнение («grumpy take») относительно популярного метода обучения с подкреплением на основе отзывов людей (RLHF). По словам Сары Хукер, математический аппарат RL как таковой не является истинным драйвером зафиксированного скачка качества моделей. Она убеждена, что если провести строгие абляционные исследования, то станет очевидно: колоссальный выигрыш обусловлен исключительно беспрецедентно высоким качеством и плотностью человеческих текстовых аннотаций и диалогов высокого уровня, собранных на этапе разметки. Сам же процесс подкрепления (RL) исследовательница считает скорее «маркетинговой оберткой» проблемы, которую можно успешно решить стандартным обучением с учителем (supervised fine-tuning) на базе правильного отбора промптов и систем ранжирования.

Ведущий отметил, что многие исследователи предпочитают смещать фокус вправо (на уровень оптимизации модели), надеясь на спонтанное возникновение эмерджентных свойств в «чистом листе» нейросети. Сара Хукер, напротив, предлагает смещать фокус влево (в сторону данных), признавая их сложность.

Дискуссия коснулась известной публикации на ресурсе LessWrong, где анализировалось влияние RLHF на траектории вероятностей токенов. С одной стороны, этот метод делает поведение модели более предсказуемым и безопасным для человека в рамках популярных сценариев (робастификация). С другой стороны, критики отмечают резкое падение креативности и вариативности ответов. Сара Хукер предупреждает, что фиксируя сиюминутные человеческие предпочтения через тотальное обновление весов всей сети (global updates), инженеры стирают знания о границах распределения. Из-за отсутствия модульности и адаптивной емкости современные LLM остаются крайне хрупкими перед лицом будущих культурных изменений.

🔮 Гадание на кофейной гуще prompt-инженерии и будущее семантики 44:02

Способность языковых моделей выдавать сложные рассуждения в режиме few-shot prompting (обучения по нескольким примерам в контексте) без изменения весов самой сети — это один из сильнейших аргументов в пользу наличия у них механизмов интерполяции в многомерных пространствах. Однако текущее состояние prompt-инженерии вызывает у Сары Хукер иронию: сегодня эта деятельность напоминает чтение гороскопов или гадание на кофейной гуще. Высококлассные специалисты вынуждены часами перебирать шаблоны и символы, пытаясь нащупать нужную конфигурацию решающей границы, что не имеет ничего общего с настоящей наукой. Сара Хукер выразила надежду, что по мере масштабирования систем и углубления теоретического понимания высокомерных пространств индустрия придет к стандартизированным и научно обоснованным методам управления моделями.

В завершение встречи собеседники затронули лингвистические ограничения ИИ. Ведущий сослался на недавнее обсуждение с Лаурой Руис (Laura Ruis), подчеркнув, что современные LLM виртуозно овладели синтаксисом, частично освоили семантику, но все еще беспомощны в прагматике речи (понимании скрытых смыслов и импликатур). Сара Хукер, которая также принимала участие в этом исследовании под руководством Лауры, объяснила феномен поразительного коммерческого успеха языковых моделей особенностями человеческого восприятия. Человеческий язык изначально является сверхплотным форматом коммуникации: два незнакомых человека могут мгновенно понять друг друга без общего бэкграунда. Из-за этой колоссальной плотности представления мы сами склонны автоматически достраивать смыслы и заполнять пробелы в несовершенных ответах нейросетей. Настоящим же вызовом для создания по-настоящему робастного ИИ станет его способность ориентироваться в средах с разреженными, неявными сигналами и наградами.