Кеннет Стенли: «RLHF — это наклеивание смайлика на хаос интернета»

Технология RLHF (Reinforcement Learning from Human Feedback) стала ключевым фактором успеха ChatGPT, превратив сырые языковые модели в предсказуемых цифровых помощников. В новом выпуске Machine Learning Street Talk ведущий Тим Скарф и исследователь Кеннет Стенли разбирают, как это «причёсывание» алгоритмов влияет на их способности, почему надёжность убивает креативность и какую цену мы платим за безопасный интерфейс.

🐙 Маска на лице чудовища: мем о Шогготе 0:00

В современной культуре ИИ-разработчиков существует популярный мем о «Шогготе» (Shogun/Shoggoth meme), который, по мнению Кеннета Стенли, идеально отражает суть RLHF . Базовая языковая модель — это огромное, хаотичное существо, обученное предсказывать распределение текста во всём интернете ($P(x)$) .

Эта сущность хранит в себе всё: от блестящих научных работ до ненавистнической риторики на 4chan и Reddit . Основная проблема базовой модели заключается в непредсказуемости:

Если попросить её решить задачу по математическому анализу, она может ответить как профессор математики.
С той же вероятностью она может продолжить текст в стиле случайного комментатора, который вообще не понимает тему .
Модель по сути моделирует «множественные личности» миллиардов людей, чей текст попал в обучающую выборку .

RLHF, по словам Стенли, — это наклеивание «смайлика» поверх этого хаоса . Это не меняет фундаментальных возможностей модели, но создает дружелюбный интерфейс, скрывающий «грязные» части интернет-распределения и направляющий пользователя к конкретным, социально одобряемым ответам .

⚙️ Техническая магия: как обучается «смайлик» 2:24

Процесс создания этого интерфейса строится на обучении с подкреплением на основе предпочтений человека. Стенли выделяет несколько этапов этого процесса:

Сбор данных о предпочтениях: люди оценивают различные варианты ответов нейросети, выбирая лучший .
Обучение модели вознаграждения (Reward Model): на основе этих оценок тренируется отдельная нейросеть, которая учится предсказывать, какой ответ понравится человеку .
Тонкая настройка (Fine-tuning): основная языковая модель тренируется как «агент» в среде обучения с подкреплением. Она учится генерировать такие токены, которые максимизируют сигнал от модели вознаграждения .

Кеннет Стенли подчёркивает фундаментальное различие между обычным обучением и RLHF:

Классическое обучение (Cross-entropy loss): это «сопоставление распределений» (distribution matching). Модель стремится максимально точно повторить всё разнообразие интернета .
Обучение с подкреплением (RL): это «поиск моды» (mode seeking). RL не пытается быть разнообразным; оно ищет один самый выигрышный вариант .

Стенли приводит пример: если в данных есть вариант «А» (нравится в 51% случаев) и вариант «Б» (нравится в 49%), алгоритм RL в конечном итоге всегда будет выбирать вариант «А», так как это максимизирует математическое ожидание награды . Это вводит в модель сильное смещение (bias) в сторону ответов, которые кажутся качественными среднему человеку .

⚖️ Проблема «обрезки» возможностей и внедрение предвзятости 6:06

Тим Скарф сравнивает RLHF с процессом «обрезки» (pruning) ландшафта вероятностей. Модель обучается отсекать «плохие» ветки (например, стиль 4chan) и оставлять «хорошие» (стиль Стэнфордского университета) . Однако Кеннет Стенли видит в этом серьезные риски:

Сужение разнообразия: Модель становится более надежной, но при этом теряет способность генерировать редкие, необычные или альтернативные пути развития мысли .
Дистилляция человеческих ценностей: Поскольку модель настраивается под предпочтения конкретных аннотаторов, она неизбежно перенимает их субъективные ценности и предвзятость . Выбор людей, предоставляющих обратную связь, становится критически важным фактором .

С точки зрения философии «Open-endedness» (открытого поиска), которую развивает Стенли, это сужение может быть вредным. Иногда маловероятный, «субглупый» или даже спорный шаг в рассуждениях может служить промежуточным этапом (stepping stone) к гениальному озарению, которое RLHF-модель просто отсечет как неэффективное .

🎨 Творчество против поиска: конфликт юзкейсов 9:17

Участники дискуссии сходятся во мнении, что полезность RLHF напрямую зависит от задачи. Стенли классифицирует это следующим образом:

Замена поисковых систем (Google): Здесь RLHF оправдан на 100%. Пользователю нужен один точный, безопасный и проверенный ответ на запрос .
Творчество и искусство (Creative Writing): Здесь RLHF становится препятствием. Автор романа или поэт хочет исследовать пространство идей, играть с «дикими картами» и идти на риск .

Кеннет отмечает, что творческие люди часто жалуются на «выхолощенность» современных чат-ботов. По его наблюдениям, многие авторы на платформе LessWrong предпочитали использовать старую модель text-davinci-003 от OpenAI вместо более новых «инструктивных» моделей (Instruct/Command), так как старые модели были более креативными и менее скованными рамками предпочтений аннотаторов .

В конечном итоге, RLHF делает ИИ безопасным и полезным для масс, но может превратить «интеллектуальный взрыв» в предсказуемое эхо усреднённого человеческого мнения .