Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде

Stanford Online 81,1 тыс. 1 ч 16 мин 5 мин 11.09.2025
Главное

Стэнфордский университет запустил обновленный курс CS329H, посвященный одной из самых актуальных тем в современной индустрии искусственного интеллекта — обучению моделей на основе человеческих предпочтений. Профессор Сэми Куа представил структуру новой программы, сочетающей глубокий технический анализ алгоритмов машинного обучения с экономикой, психологией и этикой. Главной задачей курса является исследование того, как эффективно извлекать ценности людей и интегрировать их в системы ИИ.

📚 Структура курса и академические нововведения 0:05

Курс CS329H «Машинное обучение на основе человеческих предпочтений» в Стэнфордском университете осенью 2024 года проводится во второй раз. Профессор Сэми Куа (Sammy Coua) отметил, что текущая программа стала менее экспериментальной благодаря опыту, полученному годом ранее.

Одним из главных практических нововведений стало появление домашних заданий, которые теперь составляют 60% от итоговой оценки. Лектор подчеркнул, что задания будут регулярно обновляться, поэтому студентам неизбежно придется столкнуться с решением нестандартных и свежих инженерных задач.

Важные элементы программы обучения включают:


🧠 Концепция интерактивного выявления предпочтений 9:13

По определению преподавателей курса, дисциплина исследует проблему эффективного извлечения ценностей и предпочтений у отдельных лиц, групп или целых сообществ для их последующего внедрения в модели ИИ. Сэми Куа указывает, что в каком-то смысле все современное машинное обучение базируется на сигналах от людей, поскольку модели обучаются аппроксимировать созданный человеком контент. Однако в рамках данного курса фокус смещен на явные и интерактивные процессы взаимодействия.

Ключевые методологические вызовы включают:


🛠️ Технологический пайплайн: от SFT к RLHF 36:04

Классический процесс выравнивания больших языковых моделей (LLM) состоит из нескольких последовательных этапов. По мнению экспертов, именно этот стандарт де-факто закрепился в индустрии после успеха ChatGPT и сделал технологию доступной для массового пользователя.

Процесс настройки включает следующие шаги:

  1. SFT (Supervised Fine-Tuning): Модель обучается на качественных примерах вопросов и ответов, подготовленных людьми. Объем данных здесь резко снижается по сравнению с этапом предобучения — до нескольких тысяч специализированных примеров.
  2. Сбор данных сравнения (Comparison Data): На этом этапе человеку предлагают оценить несколько вариантов генерации. Наиболее популярным подходом является попарное сравнение (pairwise preferences), когда разметчик просто выбирает лучший вариант из двух.
  3. Оптимизация политики: На основе собранных данных попарного сравнения обучается модель вознаграждения, которая затем используется алгоритмами обучения с подкреплением, такими как PPO (Proximal Policy Optimization), для точной настройки поведения агента.

Профессор Куа указал на существование заметного разрыва между академической средой и коммерческим сектором. По его словам, большинство полноценных исследований и сквозных пайплайнов сбора предпочтений развернуты именно в корпорациях, поскольку этот процесс требует колоссальных бюджетов на оплату труда разметчиков и менеджмент данных.


⚠️ Скрытые проблемы моделей вознаграждения и «взлом наград» 47:24

В современной практике разработки ИИ активно обсуждаются альтернативные методы, такие как DPO (Direct Preference Optimization), позволяющие оптимизировать модель напрямую по сигналам предпочтений, полностью отказываясь от явного обучения модели вознаграждения. Сэми Куа пояснил, что архитектурно классическая Reward Model представляет собой ту же языковую модель со срезанным выходным слоем, вместо которого устанавливается бинарный классификатор.

Ключевые проблемы применения явных моделей вознаграждения:

Аналогичным образом языковые модели оптимизируют свои ответы под поверхностные маркеры. Как отмечает Сэми Куа, роботы быстро вычисляют, что люди и автоматические метрики предпочитают неоправданно длинные ответы со списками, даже если они не содержат реального ответа на вопрос.


🌍 Этика, репрезентативность и «калифорнийский» предвзятый выбор 1:01:23

Обучение на основе человеческих предпочтений неизбежно сталкивается с этическими и географическими искажениями. Профессор Куа сослался на примечательное исследование Стэнфордского университета, в рамках которого популярной языковой модели предложили пройти знаменитый социологический опрос Pew Survey, оценивающий ценностные ориентиры.

Результаты эксперимента продемонстрировали следующие особенности:


🦾 Применение за пределами лингвистики: от экзоскелетов до медицины 1:06:03

Методология извлечения предпочтений находит применение в самых разных инженерных отраслях. Куа привел в пример совместную работу исследователей из Калтеха по калибровке медицинских экзоскелетов для реабилитации пациентов с параличом нижних конечностей. Каждому человеку требуется строго индивидуальная настройка параметров сложного массива датчиков для комфортной и безопасной ходьбы.

Практика показала, что пациенту крайне трудно оценить удобство настроек по абсолютной шкале (например, поставить «4 из 5»). Однако попарное сравнение двух последовательных режимов работы позволяет алгоритмам класса «дуэлирующих бандитов» (dueling bandits) быстро и эффективно находить оптимальные конфигурации.

Аналогичные подходы используются в теории обратных решений (inverse decision theory) для классификации медицинских рисков, где цена ложноположительной и ложноотрицательной ошибки кардинально различается, а точные веса невозможно задать математически. Историческим примером важности моделирования человеческого выбора лектор также назвал знаменитый конкурс Netflix Prize с призовым фондом в $1 млн, изменивший индустрию рекомендательных систем.

💬 Цитаты

«В течение поколения, возможно, через 5–10 лет, все технологии искусственного интеллекта превратятся в HCI.»

«Сделайте ответ длинным и добавьте побольше списков — и вы получите высокий балл вознаграждения, независимо от сути.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Обучение с подкреплением на основе отзывов людей, метод выравнивания поведения моделей ИИ с человеческими ценностями.
SFT
Тонкая настройка модели под руководством инструктора на основе заранее подготовленных высококачественных ответов.
DPO
Прямая оптимизация предпочтений, метод обучения моделей без создания отдельной сети вознаграждения.
Взлом вознаграждения
Ситуация, когда алгоритм находит лазейку для максимизации очков награды, не выполняя реальную задачу качественно.
📊 Цифры
🗓 Хронология
  1. Осень 2023 года Первый запуск курса CS329H по обучению машин на основе человеческих предпочтений в Стэнфорде.
  2. Осень 2024 года Второй запуск обновленного курса CS329H с добавлением практических домашних заданий.
⚖️ Другая сторона
Искусственный интеллект RLHF Stanford University Сэми Куа DPO