Кеннет Стенли: «RLHF — это наклеивание смайлика на хаос интернета»

Machine Learning Street Talk 72 тыс. 10 мин 3 мин 26.03.2023
Главное

Технология RLHF (Reinforcement Learning from Human Feedback) стала ключевым фактором успеха ChatGPT, превратив сырые языковые модели в предсказуемых цифровых помощников. В новом выпуске Machine Learning Street Talk ведущий Тим Скарф и исследователь Кеннет Стенли разбирают, как это «причёсывание» алгоритмов влияет на их способности, почему надёжность убивает креативность и какую цену мы платим за безопасный интерфейс.

🐙 Маска на лице чудовища: мем о Шогготе 0:00

В современной культуре ИИ-разработчиков существует популярный мем о «Шогготе» (Shogun/Shoggoth meme), который, по мнению Кеннета Стенли, идеально отражает суть RLHF . Базовая языковая модель — это огромное, хаотичное существо, обученное предсказывать распределение текста во всём интернете ($P(x)$) .

Эта сущность хранит в себе всё: от блестящих научных работ до ненавистнической риторики на 4chan и Reddit . Основная проблема базовой модели заключается в непредсказуемости:

RLHF, по словам Стенли, — это наклеивание «смайлика» поверх этого хаоса . Это не меняет фундаментальных возможностей модели, но создает дружелюбный интерфейс, скрывающий «грязные» части интернет-распределения и направляющий пользователя к конкретным, социально одобряемым ответам .

⚙️ Техническая магия: как обучается «смайлик» 2:24

Процесс создания этого интерфейса строится на обучении с подкреплением на основе предпочтений человека. Стенли выделяет несколько этапов этого процесса:

  1. Сбор данных о предпочтениях: люди оценивают различные варианты ответов нейросети, выбирая лучший .
  2. Обучение модели вознаграждения (Reward Model): на основе этих оценок тренируется отдельная нейросеть, которая учится предсказывать, какой ответ понравится человеку .
  3. Тонкая настройка (Fine-tuning): основная языковая модель тренируется как «агент» в среде обучения с подкреплением. Она учится генерировать такие токены, которые максимизируют сигнал от модели вознаграждения .

Кеннет Стенли подчёркивает фундаментальное различие между обычным обучением и RLHF:

Стенли приводит пример: если в данных есть вариант «А» (нравится в 51% случаев) и вариант «Б» (нравится в 49%), алгоритм RL в конечном итоге всегда будет выбирать вариант «А», так как это максимизирует математическое ожидание награды . Это вводит в модель сильное смещение (bias) в сторону ответов, которые кажутся качественными среднему человеку .

⚖️ Проблема «обрезки» возможностей и внедрение предвзятости 6:06

Тим Скарф сравнивает RLHF с процессом «обрезки» (pruning) ландшафта вероятностей. Модель обучается отсекать «плохие» ветки (например, стиль 4chan) и оставлять «хорошие» (стиль Стэнфордского университета) . Однако Кеннет Стенли видит в этом серьезные риски:

С точки зрения философии «Open-endedness» (открытого поиска), которую развивает Стенли, это сужение может быть вредным. Иногда маловероятный, «субглупый» или даже спорный шаг в рассуждениях может служить промежуточным этапом (stepping stone) к гениальному озарению, которое RLHF-модель просто отсечет как неэффективное .

🎨 Творчество против поиска: конфликт юзкейсов 9:17

Участники дискуссии сходятся во мнении, что полезность RLHF напрямую зависит от задачи. Стенли классифицирует это следующим образом:

Кеннет отмечает, что творческие люди часто жалуются на «выхолощенность» современных чат-ботов. По его наблюдениям, многие авторы на платформе LessWrong предпочитали использовать старую модель text-davinci-003 от OpenAI вместо более новых «инструктивных» моделей (Instruct/Command), так как старые модели были более креативными и менее скованными рамками предпочтений аннотаторов .

В конечном итоге, RLHF делает ИИ безопасным и полезным для масс, но может превратить «интеллектуальный взрыв» в предсказуемое эхо усреднённого человеческого мнения .

💬 Цитаты

«RLHF — это наклеивание смайлика поверх хаоса; оно скрывает тот факт, что модель — это хаотичная популяция текстов.»

Кеннет Стенли 2:12

«Обучение с подкреплением — это поиск моды (mode seeking), а не сопоставление распределений.»

Кеннет Стенли 4:50
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Reinforcement Learning from Human Feedback — метод дообучения ИИ на основе оценок, выставленных людьми.
Шоггот (Shoggoth)
Мем в ИИ-сообществе, изображающий базовую модель как бесформенное чудовище с кучей глаз, на которое надета маска со смайликом.
Mode seeking
Свойство алгоритма выбирать наиболее вероятный или вознаграждаемый вариант, игнорируя всё остальное распределение данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RLHF ChatGPT Kenneth Stanley OpenAI Machine Learning