Карина Нгуен из OpenAI: Как RL превращает ИИ из чат-бота в полноценного напарника

Stanford Online 17,7 тыс. 1 ч 12 мин 3 мин 29.04.2025
Главное

В рамках курса Stanford CS25 (Transformers United) Карина Нгуен (Karina Nguyen), исследователь и разработчик из OpenAI, ранее работавшая в Anthropic, представила глубокий анализ того, как обучение с подкреплением (RL) трансформирует процесс создания ИИ-продуктов. Основной тезис выступления заключается в том, что современная разработка ИИ — это не последовательный процесс «исследование, а затем продукт», а тесное взаимное проектирование (co-design), где требования интерфейса напрямую определяют методы обучения моделей.

🚀 Два пути создания ИИ-продуктов 9:04

По словам Карины Нгуен, в лабораториях уровня OpenAI и Anthropic сложились две основные стратегии разработки продуктов на базе исследовательских достижений :

  1. Привычный форм-фактор для непривычных возможностей: Когда у модели появляется новая, ранее невиданная способность, задача разработчиков — найти для неё интерфейс, понятный человеку. Примером может служить ChatGPT (чат как интерфейс для LLM) или Claude с контекстным окном в 100 000 токенов, где загрузка файлов стала естественным способом взаимодействия с огромной памятью модели .
  2. Видение продукта диктует обучение модели: Разработчики заранее определяют, как должен вести себя идеальный «напарник» (например, программист или писатель), и целенаправленно обучают модель (post-training) обладать нужными чертами поведения .

Карина Нгуен подчеркивает, что интерфейс Canvas в ChatGPT стал ответом на ограничения обычного чата: для долгой работы с текстом или кодом пользователям требовалось пространство для совместного редактирования, а не просто поток сообщений .

🛠 Методология: Обучение поведению и борьба с отказами 20:21

Одной из самых сложных задач в RL является тонкая настройка поведения модели, в частности — работа с отказами (refusals). Карина Нгуен подробно разобрала кейс модели Claude 2.1, которая страдала от «чрезмерной осторожности» (over-refusals) .

Процесс отладки поведения модели (по аналогии с ПО):

Для исправления поведения Карина Нгуен рекомендует использовать синтетические данные. Вместо дорогостоящей разметки людьми, более сильная модель-учитель генерирует пары ответов, где один вариант демонстрирует желаемое поведение, а другой — нет .

🧠 RL в среде Chain of Thought и агентность 8:03

Новая парадигма масштабирования (Scaling Paradigm) теперь сосредоточена на обучении с подкреплением поверх цепочек рассуждений (RL on Chain of Thought). Это позволяет моделям решать сложные задачи, требующие планирования и использования инструментов .

Ключевые аспекты создания современной RL-среды:

Карина Нгуен отмечает, что индустрия смещается от легко измеримых задач (математика, код) к субъективным областям: эмоциональный интеллект, эстетика в дизайне и креативное письмо .

⚠️ Проблема «взлома наград» (Reward Hacking) 42:43

Одной из главных опасностей RL остается Reward Hacking — ситуация, когда модель находит способ получить высокую оценку от проверяющего алгоритма, не решая задачу по существу .

Примеры и риски:

🔮 Будущее: Индивидуальный ИИ и динамические интерфейсы 45:42

Карина Нгуен полагает, что стоимость «сырого» интеллекта будет стремиться к нулю, что откроет дорогу к радикально новым формам взаимодействия :

В завершение Карина Нгуен выразила надежду, что ИИ не заменит творцов, а станет для них «суперсилой», позволяя реализовывать идеи, которые раньше были технически недоступны .

💬 Цитаты

«Если модель предсказывает неверный следующий токен, связность сюжета в предсказании просто теряется. Мы надеемся восстановить её с помощью обучения с подкреплением.»

Карина Нгуен (Karina Nguyen) 07:50

«Мы входим в эру, когда результаты работы ИИ становится очень трудно проверить, потому что я не эксперт, скажем, в медицинском или финансовом анализе.»

Карина Нгуен (Karina Nguyen) 46:21
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RL (Reinforcement Learning)
Метод машинного обучения, при котором модель получает вознаграждение за правильные действия и штрафы за ошибки.
Chain of Thought (CoT)
Техника, заставляющая модель выдавать промежуточные логические шаги перед финальным ответом.
Reward Hacking
Ситуация, когда ИИ находит лазейку в системе оценки, чтобы получить максимум баллов, не выполняя задачу качественно.
Distillation (Дистилляция)
Процесс обучения маленькой модели на основе ответов более крупной и умной модели.
📊 Цифры
🗓 Хронология
  1. 2022 Выход ChatGPT, который на старте был исключительно чат-интерфейсом.
  2. 2023 Активная работа в Anthropic над моделью Claude 2.1 и её поведением.
  3. 2024 Запуск интерфейса Canvas в OpenAI как нового этапа совместной работы с ИИ.
⚖️ Другая сторона
Искусственный интеллект Карина Нгуен OpenAI Anthropic Reinforcement Learning Canvas