Арчит Шарма о будущем LLM: как обучают ChatGPT?

Stanford Online 23,4 тыс. 1 ч 19 мин 3 мин 04.03.2025
Главное

Путь от предобучения к ChatGPT: искусство пост-тренинга языковых моделей 🤖 0:05

Лекция Арчита Шармы из Стэнфордского университета посвящена эволюции больших языковых моделей (LLM) — от базовых алгоритмов предсказания следующего токена до интеллектуальных помощников типа ChatGPT. В рамках курса CS224N лектор детально разбирает ключевые этапы «пост-тренинга»: контекстное обучение, инструктивную донастройку (instruction fine-tuning) и оптимизацию с подкреплением (RLHF и DPO). Главная идея заключается в том, что современное обучение моделей — это не просто масштабирование данных, а тонкая настройка для соответствия человеческим намерениям.

🧠 От предобучения к «интеллекту» 1:01

Предобучение остается фундаментом всей отрасли. Модели растут, требуя все больше вычислительных мощностей и данных. Если в 2022 году стандартом для предобучения было около 1,4 трлн токенов, то к 2024 году, по словам Шармы, эта цифра приблизилась к 15 трлн (на примере Llama 3).

Почему предобучение эффективно?

Хотя формально модель обучается лишь предсказывать следующий токен, она усваивает глубокие структуры:

📖 Контекстное обучение: Zero-shot и Few-shot 7:05

С развитием архитектуры (от GPT-1 к GPT-3) стало понятно, что большие модели способны решать задачи без донастройки.

🎯 Инструктивная донастройка (Instruction Fine-tuning) 22:23

Базовые модели часто плохо понимают команды, так как их цель — просто продолжить текст. Инструктивная донастройка решает эту проблему, обучая модель на парах «инструкция — ответ».

⚖️ RLHF: Оптимизация под предпочтения людей 39:11

Основная проблема supervised-обучения в том, что оно штрафует все ошибки одинаково, не учитывая «ценность» ответа для пользователя. RLHF (Reinforcement Learning from Human Feedback) позволяет оптимизировать модель для достижения высокого человеческого «вознаграждения».

  1. Сбор предпочтений: вместо выставления оценок людям проще ранжировать ответы (какой лучше: Y1 или Y2).
  2. Модель вознаграждения (Reward Model): обучение системы предсказывать, какой ответ человек оценит выше.
  3. Оптимизация: использование алгоритмов обучения с подкреплением для максимизации этого вознаграждения, с добавлением штрафа (KL-дивергенция) за слишком сильное отклонение от исходной (предобученной) модели, чтобы избежать «порчи» языка.

🚀 DPO: Упрощенный путь к эффективности 57:00

Direct Preference Optimization (DPO) — это прорыв в индустрии, предложенный как более простая альтернатива классическому RLHF.

⚠️ Риски и вызовы

Лектор предостерегает от ряда проблем:

💬 Цитаты

«Когда вы оптимизируете модель против обученной метрики, она будет пытаться взломать reward-модель.»

Арчит Шарма 51:02

«Модели становятся всё более разумными, просто пытаясь предсказать следующий токен.»

Арчит Шарма 3:35
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Метод настройки модели с использованием обратной связи от людей для соответствия человеческим предпочтениям.
DPO
Алгоритм прямой оптимизации предпочтений, упрощающий обучение без использования полноценного обучения с подкреплением.
Reward Hacking
Ситуация, когда модель находит способ получить высокую оценку от reward-системы, не выполняя реальную задачу.
Chain of Thought
Техника промптинга, заставляющая модель выводить промежуточные логические шаги перед ответом.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RLHF DPO Instruction Fine-tuning Chain of Thought