Путь от предобучения к ChatGPT: искусство пост-тренинга языковых моделей 🤖 0:05
Лекция Арчита Шармы из Стэнфордского университета посвящена эволюции больших языковых моделей (LLM) — от базовых алгоритмов предсказания следующего токена до интеллектуальных помощников типа ChatGPT. В рамках курса CS224N лектор детально разбирает ключевые этапы «пост-тренинга»: контекстное обучение, инструктивную донастройку (instruction fine-tuning) и оптимизацию с подкреплением (RLHF и DPO). Главная идея заключается в том, что современное обучение моделей — это не просто масштабирование данных, а тонкая настройка для соответствия человеческим намерениям.
🧠 От предобучения к «интеллекту» 1:01
Предобучение остается фундаментом всей отрасли. Модели растут, требуя все больше вычислительных мощностей и данных. Если в 2022 году стандартом для предобучения было около 1,4 трлн токенов, то к 2024 году, по словам Шармы, эта цифра приблизилась к 15 трлн (на примере Llama 3).
Почему предобучение эффективно?
Хотя формально модель обучается лишь предсказывать следующий токен, она усваивает глубокие структуры:
- Знания: факты, синтаксис и семантика языка.
- Моделирование агентов: модели начинают «понимать» логику человеческих действий и убеждений, что проявляется в способности предсказывать поведение людей в физических экспериментах.
- Математика и код: способность работать с уравнениями и генерировать функциональный код (например, GitHub Copilot).
📖 Контекстное обучение: Zero-shot и Few-shot 7:05
С развитием архитектуры (от GPT-1 к GPT-3) стало понятно, что большие модели способны решать задачи без донастройки.
- Zero-shot: модель выполняет задание без примеров в контексте. Примеры: суммаризация текста через добавление метки «TL;DR» или поиск ответа через сравнение вероятностей.
- Few-shot: предоставление нескольких примеров «вход-выход» позволяет модели адаптироваться к задаче без изменения весов.
- Chain of Thought (CoT): метод, при котором модель просят «думать пошагово» (Let's think step by step). Это существенно улучшает качество логических и математических рассуждений.
🎯 Инструктивная донастройка (Instruction Fine-tuning) 22:23
Базовые модели часто плохо понимают команды, так как их цель — просто продолжить текст. Инструктивная донастройка решает эту проблему, обучая модель на парах «инструкция — ответ».
- Масштабируемость: теперь обучение идет не по одной задаче, а по тысячам разных (суммаризация, перевод, код, reasoning).
- Качество данных: Шарма отмечает, что использование более мощных моделей (например, GPT-4) для создания ответов при обучении меньших моделей — крайне эффективная стратегия.
- Бенчмарки: ключевым индикатором успеха здесь выступают тесты типа MMLU, где модели стремятся преодолеть рубеж в 90% правильных ответов.
⚖️ RLHF: Оптимизация под предпочтения людей 39:11
Основная проблема supervised-обучения в том, что оно штрафует все ошибки одинаково, не учитывая «ценность» ответа для пользователя. RLHF (Reinforcement Learning from Human Feedback) позволяет оптимизировать модель для достижения высокого человеческого «вознаграждения».
- Сбор предпочтений: вместо выставления оценок людям проще ранжировать ответы (какой лучше: Y1 или Y2).
- Модель вознаграждения (Reward Model): обучение системы предсказывать, какой ответ человек оценит выше.
- Оптимизация: использование алгоритмов обучения с подкреплением для максимизации этого вознаграждения, с добавлением штрафа (KL-дивергенция) за слишком сильное отклонение от исходной (предобученной) модели, чтобы избежать «порчи» языка.
🚀 DPO: Упрощенный путь к эффективности 57:00
Direct Preference Optimization (DPO) — это прорыв в индустрии, предложенный как более простая альтернатива классическому RLHF.
- Суть: DPO позволяет напрямую оптимизировать языковую модель на данных о предпочтениях, используя классическую задачу классификации вместо сложных RL-процедур.
- Результаты: DPO показывает сопоставимые с RLHF результаты, но значительно легче в реализации.
- Open Source: лидеры Hugging Face и современные модели (Llama 3, Mistral) активно используют DPO, что сделало высококачественные модели доступными для широкого сообщества.
⚠️ Риски и вызовы
Лектор предостерегает от ряда проблем:
- Reward Hacking: модель может найти способ «обмануть» reward-модель, выдавая бессмысленные, но «оцененные как высокие» ответы.
- Смещение человеческих оценок: люди часто предпочитают «авторитетный» тон правильности, что способствует галлюцинациям.
- Многословность: при сборе данных люди склонны выбирать более длинные ответы, из-за чего модели часто страдают излишней вербальностью.