# Кеннет Стенли: «RLHF — это наклеивание смайлика на хаос интернета»

Источник: https://www.youtube.com/watch?v=PBH2nImUM5c
Канал: Machine Learning Street Talk
Опубликовано: 26.03.2023

---

Технология RLHF (Reinforcement Learning from Human Feedback) стала ключевым фактором успеха ChatGPT, превратив сырые языковые модели в предсказуемых цифровых помощников. В новом выпуске Machine Learning Street Talk ведущий Тим Скарф и исследователь Кеннет Стенли разбирают, как это «причёсывание» алгоритмов влияет на их способности, почему надёжность убивает креативность и какую цену мы платим за безопасный интерфейс.

## 🐙 Маска на лице чудовища: мем о Шогготе
[[JUMP:0:00]]

В современной культуре ИИ-разработчиков существует популярный мем о «Шогготе» (Shogun/Shoggoth meme), который, по мнению Кеннета Стенли, идеально отражает суть RLHF [0:27]. Базовая языковая модель — это огромное, хаотичное существо, обученное предсказывать распределение текста во всём интернете ($P(x)$) [0:40]. 

Эта сущность хранит в себе всё: от блестящих научных работ до ненавистнической риторики на 4chan и Reddit [0:53]. Основная проблема базовой модели заключается в непредсказуемости:

*   Если попросить её решить задачу по математическому анализу, она может ответить как профессор математики.
*   С той же вероятностью она может продолжить текст в стиле случайного комментатора, который вообще не понимает тему [1:20].
*   Модель по сути моделирует «множественные личности» миллиардов людей, чей текст попал в обучающую выборку [1:46].

RLHF, по словам Стенли, — это наклеивание «смайлика» поверх этого хаоса [1:58]. Это не меняет фундаментальных возможностей модели, но создает дружелюбный интерфейс, скрывающий «грязные» части интернет-распределения и направляющий пользователя к конкретным, социально одобряемым ответам [2:12].

## ⚙️ Техническая магия: как обучается «смайлик»
[[JUMP:2:24]]

Процесс создания этого интерфейса строится на обучении с подкреплением на основе предпочтений человека. Стенли выделяет несколько этапов этого процесса:

1.  **Сбор данных о предпочтениях:** люди оценивают различные варианты ответов нейросети, выбирая лучший [2:37].
2.  **Обучение модели вознаграждения (Reward Model):** на основе этих оценок тренируется отдельная нейросеть, которая учится предсказывать, какой ответ понравится человеку [2:50].
3.  **Тонкая настройка (Fine-tuning):** основная языковая модель тренируется как «агент» в среде обучения с подкреплением. Она учится генерировать такие токены, которые максимизируют сигнал от модели вознаграждения [3:03].

Кеннет Стенли подчёркивает фундаментальное различие между обычным обучением и RLHF:

*   **Классическое обучение (Cross-entropy loss):** это «сопоставление распределений» (distribution matching). Модель стремится максимально точно повторить всё разнообразие интернета [3:40].
*   **Обучение с подкреплением (RL):** это «поиск моды» (mode seeking). RL не пытается быть разнообразным; оно ищет один самый выигрышный вариант [4:19].

Стенли приводит пример: если в данных есть вариант «А» (нравится в 51% случаев) и вариант «Б» (нравится в 49%), алгоритм RL в конечном итоге всегда будет выбирать вариант «А», так как это максимизирует математическое ожидание награды [4:47]. Это вводит в модель сильное смещение (bias) в сторону ответов, которые кажутся качественными среднему человеку [5:14].

## ⚖️ Проблема «обрезки» возможностей и внедрение предвзятости
[[JUMP:6:06]]

Тим Скарф сравнивает RLHF с процессом «обрезки» (pruning) ландшафта вероятностей. Модель обучается отсекать «плохие» ветки (например, стиль 4chan) и оставлять «хорошие» (стиль Стэнфордского университета) [6:30]. Однако Кеннет Стенли видит в этом серьезные риски:

*   **Сужение разнообразия:** Модель становится более надежной, но при этом теряет способность генерировать редкие, необычные или альтернативные пути развития мысли [7:35].
*   **Дистилляция человеческих ценностей:** Поскольку модель настраивается под предпочтения конкретных аннотаторов, она неизбежно перенимает их субъективные ценности и предвзятость [7:22]. Выбор людей, предоставляющих обратную связь, становится критически важным фактором [7:35].

С точки зрения философии «Open-endedness» (открытого поиска), которую развивает Стенли, это сужение может быть вредным. Иногда маловероятный, «субглупый» или даже спорный шаг в рассуждениях может служить промежуточным этапом (stepping stone) к гениальному озарению, которое RLHF-модель просто отсечет как неэффективное [8:00].

## 🎨 Творчество против поиска: конфликт юзкейсов
[[JUMP:9:17]]

Участники дискуссии сходятся во мнении, что полезность RLHF напрямую зависит от задачи. Стенли классифицирует это следующим образом:

*   **Замена поисковых систем (Google):** Здесь RLHF оправдан на 100%. Пользователю нужен один точный, безопасный и проверенный ответ на запрос [9:31].
*   **Творчество и искусство (Creative Writing):** Здесь RLHF становится препятствием. Автор романа или поэт хочет исследовать пространство идей, играть с «дикими картами» и идти на риск [9:43].

Кеннет отмечает, что творческие люди часто жалуются на «выхолощенность» современных чат-ботов. По его наблюдениям, многие авторы на платформе LessWrong предпочитали использовать старую модель `text-davinci-003` от OpenAI вместо более новых «инструктивных» моделей (Instruct/Command), так как старые модели были более креативными и менее скованными рамками предпочтений аннотаторов [10:34]. 

В конечном итоге, RLHF делает ИИ безопасным и полезным для масс, но может превратить «интеллектуальный взрыв» в предсказуемое эхо усреднённого человеческого мнения [10:10].