Арчит Шарма о будущем LLM: как обучают ChatGPT?

Путь от предобучения к ChatGPT: искусство пост-тренинга языковых моделей 🤖 0:05

Лекция Арчита Шармы из Стэнфордского университета посвящена эволюции больших языковых моделей (LLM) — от базовых алгоритмов предсказания следующего токена до интеллектуальных помощников типа ChatGPT. В рамках курса CS224N лектор детально разбирает ключевые этапы «пост-тренинга»: контекстное обучение, инструктивную донастройку (instruction fine-tuning) и оптимизацию с подкреплением (RLHF и DPO). Главная идея заключается в том, что современное обучение моделей — это не просто масштабирование данных, а тонкая настройка для соответствия человеческим намерениям.

🧠 От предобучения к «интеллекту» 1:01

Предобучение остается фундаментом всей отрасли. Модели растут, требуя все больше вычислительных мощностей и данных. Если в 2022 году стандартом для предобучения было около 1,4 трлн токенов, то к 2024 году, по словам Шармы, эта цифра приблизилась к 15 трлн (на примере Llama 3).

Почему предобучение эффективно?

Хотя формально модель обучается лишь предсказывать следующий токен, она усваивает глубокие структуры:

Знания: факты, синтаксис и семантика языка.
Моделирование агентов: модели начинают «понимать» логику человеческих действий и убеждений, что проявляется в способности предсказывать поведение людей в физических экспериментах.
Математика и код: способность работать с уравнениями и генерировать функциональный код (например, GitHub Copilot).

📖 Контекстное обучение: Zero-shot и Few-shot 7:05

С развитием архитектуры (от GPT-1 к GPT-3) стало понятно, что большие модели способны решать задачи без донастройки.

Zero-shot: модель выполняет задание без примеров в контексте. Примеры: суммаризация текста через добавление метки «TL;DR» или поиск ответа через сравнение вероятностей.
Few-shot: предоставление нескольких примеров «вход-выход» позволяет модели адаптироваться к задаче без изменения весов.
Chain of Thought (CoT): метод, при котором модель просят «думать пошагово» (Let's think step by step). Это существенно улучшает качество логических и математических рассуждений.

🎯 Инструктивная донастройка (Instruction Fine-tuning) 22:23

Базовые модели часто плохо понимают команды, так как их цель — просто продолжить текст. Инструктивная донастройка решает эту проблему, обучая модель на парах «инструкция — ответ».

Масштабируемость: теперь обучение идет не по одной задаче, а по тысячам разных (суммаризация, перевод, код, reasoning).
Качество данных: Шарма отмечает, что использование более мощных моделей (например, GPT-4) для создания ответов при обучении меньших моделей — крайне эффективная стратегия.
Бенчмарки: ключевым индикатором успеха здесь выступают тесты типа MMLU, где модели стремятся преодолеть рубеж в 90% правильных ответов.

⚖️ RLHF: Оптимизация под предпочтения людей 39:11

Основная проблема supervised-обучения в том, что оно штрафует все ошибки одинаково, не учитывая «ценность» ответа для пользователя. RLHF (Reinforcement Learning from Human Feedback) позволяет оптимизировать модель для достижения высокого человеческого «вознаграждения».

Сбор предпочтений: вместо выставления оценок людям проще ранжировать ответы (какой лучше: Y1 или Y2).
Модель вознаграждения (Reward Model): обучение системы предсказывать, какой ответ человек оценит выше.
Оптимизация: использование алгоритмов обучения с подкреплением для максимизации этого вознаграждения, с добавлением штрафа (KL-дивергенция) за слишком сильное отклонение от исходной (предобученной) модели, чтобы избежать «порчи» языка.

🚀 DPO: Упрощенный путь к эффективности 57:00

Direct Preference Optimization (DPO) — это прорыв в индустрии, предложенный как более простая альтернатива классическому RLHF.

Суть: DPO позволяет напрямую оптимизировать языковую модель на данных о предпочтениях, используя классическую задачу классификации вместо сложных RL-процедур.
Результаты: DPO показывает сопоставимые с RLHF результаты, но значительно легче в реализации.
Open Source: лидеры Hugging Face и современные модели (Llama 3, Mistral) активно используют DPO, что сделало высококачественные модели доступными для широкого сообщества.

⚠️ Риски и вызовы

Лектор предостерегает от ряда проблем:

Reward Hacking: модель может найти способ «обмануть» reward-модель, выдавая бессмысленные, но «оцененные как высокие» ответы.
Смещение человеческих оценок: люди часто предпочитают «авторитетный» тон правильности, что способствует галлюцинациям.
Многословность: при сборе данных люди склонны выбирать более длинные ответы, из-за чего модели часто страдают излишней вербальностью.