# Арчит Шарма о будущем LLM: как обучают ChatGPT?

Источник: https://www.youtube.com/watch?v=35X6zlhoCy4
Канал: Stanford Online
Опубликовано: 04.03.2025

---

## Путь от предобучения к ChatGPT: искусство пост-тренинга языковых моделей 🤖
[[JUMP:0:05]]

Лекция Арчита Шармы из Стэнфордского университета посвящена эволюции больших языковых моделей (LLM) — от базовых алгоритмов предсказания следующего токена до интеллектуальных помощников типа ChatGPT. В рамках курса CS224N лектор детально разбирает ключевые этапы «пост-тренинга»: контекстное обучение, инструктивную донастройку (instruction fine-tuning) и оптимизацию с подкреплением (RLHF и DPO). Главная идея заключается в том, что современное обучение моделей — это не просто масштабирование данных, а тонкая настройка для соответствия человеческим намерениям.

## 🧠 От предобучения к «интеллекту»
[[JUMP:1:01]]

Предобучение остается фундаментом всей отрасли. Модели растут, требуя все больше вычислительных мощностей и данных. Если в 2022 году стандартом для предобучения было около 1,4 трлн токенов, то к 2024 году, по словам Шармы, эта цифра приблизилась к 15 трлн (на примере Llama 3).

### Почему предобучение эффективно?
Хотя формально модель обучается лишь предсказывать следующий токен, она усваивает глубокие структуры:

*   **Знания:** факты, синтаксис и семантика языка.
*   **Моделирование агентов:** модели начинают «понимать» логику человеческих действий и убеждений, что проявляется в способности предсказывать поведение людей в физических экспериментах.
*   **Математика и код:** способность работать с уравнениями и генерировать функциональный код (например, GitHub Copilot).

## 📖 Контекстное обучение: Zero-shot и Few-shot
[[JUMP:7:05]]

С развитием архитектуры (от GPT-1 к GPT-3) стало понятно, что большие модели способны решать задачи без донастройки.

*   **Zero-shot:** модель выполняет задание без примеров в контексте. Примеры: суммаризация текста через добавление метки «TL;DR» или поиск ответа через сравнение вероятностей.
*   **Few-shot:** предоставление нескольких примеров «вход-выход» позволяет модели адаптироваться к задаче без изменения весов.
*   **Chain of Thought (CoT):** метод, при котором модель просят «думать пошагово» (Let's think step by step). Это существенно улучшает качество логических и математических рассуждений.

## 🎯 Инструктивная донастройка (Instruction Fine-tuning)
[[JUMP:22:23]]

Базовые модели часто плохо понимают команды, так как их цель — просто продолжить текст. Инструктивная донастройка решает эту проблему, обучая модель на парах «инструкция — ответ».

*   **Масштабируемость:** теперь обучение идет не по одной задаче, а по тысячам разных (суммаризация, перевод, код, reasoning).
*   **Качество данных:** Шарма отмечает, что использование более мощных моделей (например, GPT-4) для создания ответов при обучении меньших моделей — крайне эффективная стратегия.
*   **Бенчмарки:** ключевым индикатором успеха здесь выступают тесты типа MMLU, где модели стремятся преодолеть рубеж в 90% правильных ответов.

## ⚖️ RLHF: Оптимизация под предпочтения людей
[[JUMP:39:11]]

Основная проблема supervised-обучения в том, что оно штрафует все ошибки одинаково, не учитывая «ценность» ответа для пользователя. RLHF (Reinforcement Learning from Human Feedback) позволяет оптимизировать модель для достижения высокого человеческого «вознаграждения».

1.  **Сбор предпочтений:** вместо выставления оценок людям проще ранжировать ответы (какой лучше: Y1 или Y2).
2.  **Модель вознаграждения (Reward Model):** обучение системы предсказывать, какой ответ человек оценит выше.
3.  **Оптимизация:** использование алгоритмов обучения с подкреплением для максимизации этого вознаграждения, с добавлением штрафа (KL-дивергенция) за слишком сильное отклонение от исходной (предобученной) модели, чтобы избежать «порчи» языка.

## 🚀 DPO: Упрощенный путь к эффективности
[[JUMP:57:00]]

Direct Preference Optimization (DPO) — это прорыв в индустрии, предложенный как более простая альтернатива классическому RLHF.

*   **Суть:** DPO позволяет напрямую оптимизировать языковую модель на данных о предпочтениях, используя классическую задачу классификации вместо сложных RL-процедур.
*   **Результаты:** DPO показывает сопоставимые с RLHF результаты, но значительно легче в реализации.
*   **Open Source:** лидеры Hugging Face и современные модели (Llama 3, Mistral) активно используют DPO, что сделало высококачественные модели доступными для широкого сообщества.

## ⚠️ Риски и вызовы
[[JUMP:117:15]]

Лектор предостерегает от ряда проблем:

*   **Reward Hacking:** модель может найти способ «обмануть» reward-модель, выдавая бессмысленные, но «оцененные как высокие» ответы.
*   **Смещение человеческих оценок:** люди часто предпочитают «авторитетный» тон правильности, что способствует галлюцинациям.
*   **Многословность:** при сборе данных люди склонны выбирать более длинные ответы, из-за чего модели часто страдают излишней вербальностью.