Стэнфордский CME295: как на самом деле обучаются современные LLM — от претрейна до LoRA

Stanford Online 69,9 тыс. 1 ч 47 мин 6 мин 21.10.2025
Главное

Четвертая лекция курса CME295 в Стэнфордском университете посвящена «индустриальному» закулисью больших языковых моделей (LLM) — процессам их обучения и оптимизации. Преподаватели курса, Афшин и Шервин, подробно разбирают путь модели от поглощения терабайтов интернет-данных до превращения в полезного ИИ-ассистента через механизмы SFT и LoRA.

🎓 Логистика курса и рекап основ 0:05

Лекция началась с организационных моментов: Афшин напомнил, что промежуточный экзамен (midterm) состоится через неделю и будет охватывать материал первых четырех лекций . Экзамен пройдет в формате закрытой книги (closed book), где разрешены только ручки — калькуляторы и шпаргалки запрещены, хотя на сайте курса доступен лист с формулами для подготовки .

Для понимания процесса обучения важно вспомнить ключевые концепции из предыдущих занятий:

🏗️ Претрейн: создание фундамента знаний 7:21

Современная парадигма LLM строится на transfer learning (переносе обучения). Вместо того чтобы обучать отдельную модель для каждой задачи (спам-фильтр, анализ тональности), исследователи сначала обучают гигантскую «базовую» модель на огромном массиве данных .

Претрейнинг — это самый дорогой и ресурсоемкий этап. Его суть заключается в предсказании следующего токена (next token prediction) . Модель поглощает буквально «весь интернет»:

Масштабы данных поражают: если GPT-3 обучалась на 300 миллиардах токенов, то современная Llama 3 прошла через 15 триллионов токенов .

Экономика вычислений и «Закон Чинчиллы»

Афшин вводит две ключевые метрики вычислений:

  1. FLOPs (floating operations): общее количество операций над числами с плавающей запятой, затраченных на обучение (порядок 10^25 для современных LLM) .
  2. FLOPS (operations per second): скорость вычислений оборудования (часто указывается в спецификациях GPU) .

Долгое время считалось, что чем больше модель, тем лучше. Однако в 2020 году вышло исследование Scaling Laws, показавшее, что производительность растет линейно с увеличением вычислений, данных и параметров . Позже появился так называемый Chinchilla Law (закон Чинчиллы): для оптимального расхода бюджета на один параметр модели должно приходиться примерно 20 токенов обучающих данных . По этой метрике GPT-3 (175 млрд параметров на 300 млрд токенов) считается «недообученной» .

⚙️ Железо и память: как уместить гиганта в GPU 25:09

Основная проблема обучения — нехватка памяти GPU. Хотя H100 обладает внушительными 80 ГБ видеопамяти, этого недостаточно для хранения всех данных :

Для решения проблемы используются различные виды параллелизма:

⚡ Flash Attention: магия оптимизации памяти 38:39

Метод Flash Attention, разработанный в Стэнфорде, произвел революцию в скорости работы трансформеров . Проблема классического механизма внимания в том, что GPU тратит больше времени на чтение и запись данных в медленную память (HBM), чем на сами вычисления .

Flash Attention использует два типа памяти GPU:

  1. HBM (High Bandwidth Memory): большая (80 ГБ), но медленная .
  2. SRAM: очень маленькая (десятки МБ), но в 10 раз быстрее .

Суть метода — в «тайлинге» (блочном подходе). Вместо того чтобы вычислять огромную матрицу внимания целиком и постоянно записывать её в HBM, алгоритм берет маленькие блоки, загружает их в быструю SRAM, проводит там все вычисления (включая softmax) и записывает в основную память только итоговый результат .

Более того, Flash Attention применяет трюк с рекомпьютацией: вместо того чтобы хранить тяжелые активации в памяти для обратного прохода, он просто вычисляет их заново, так как это теперь происходит быстрее, чем чтение из памяти . В итоге мы получаем меньше обращений к памяти и ускорение работы при сохранении точности .

📉 Квантование и смешанная точность 52:40

Нужно ли нам хранить веса с огромной точностью после запятой? Квантование говорит — нет.

Популярный метод — Mixed Precision Training: веса хранятся в высокой точности (FP32), но все вычисления (прямой и обратный проходы) делаются в FP16 . Это позволяет избежать накопления ошибок при обновлении весов, сохраняя при этом скорость .

🧸 SFT: от предсказателя текста к помощнику 1:02:27

Шервин объясняет, что после претрейна модель — это просто статистический автодополнитель текста. Если спросить «Можно ли стирать плюшевого мишку в машинке?», сырая модель может выдать описание состава мишки или похожий вопрос, но не даст совета .

Чтобы сделать ИИ полезным, применяется SFT (Supervised Fine-Tuning) — контролируемое дообучение на парах «инструкция — ответ» . В отличие от претрейна, здесь используется на порядки меньше данных (тысячи или миллионы примеров вместо триллионов), но они должны быть сверхвысокого качества .

Проблемы выравнивания (Alignment)

В состав данных для SFT входят:

Шервин отмечает, что сегодня данные для обучения часто генерируются другими, более мощными LLM, а люди лишь проверяют их качество .

📊 Кризис оценки: бенчмарки против «вайба» 1:26:30

Как понять, стала ли модель лучше?

  1. Академические бенчмарки (MMLU, GSM8K): дают сухие цифры по знаниям и математике . Однако существует проблема «обучения на тестах»: если данные из бенчмарка попали в обучающую выборку, оценка становится необъективной .
  2. Chatbot Arena: платформа, где пользователи сравнивают ответы двух анонимных моделей и выбирают лучший . Это оценка «вайба» и предпочтений пользователей.

Спикер подчеркивает субъективность оценок: кому-то нравятся эмодзи в ответах, а эксперты их ненавидят . Кроме того, пользователи склонны выше оценивать модель, которая дает уверенный, но фактически неверный ответ, чем ту, что честно отказывается из соображений безопасности .

🚀 Эффективное дообучение: LoRA и QLoRA 1:37:52

Полное дообучение всех параметров модели слишком дорого. Технология LoRA (Low-Rank Adaptation) позволяет обновлять лишь крошечную часть весов . Идея: мы «замораживаем» основные веса модели и добавляем к ним две маленькие матрицы (A и B), произведение которых имитирует изменения в основной матрице . Это сокращает количество обучаемых параметров в тысячи раз.

QLoRA идет еще дальше, комбинируя LoRA с 4-битным квантованием . Метод использует формат NF4 (Normal Float 4), который предполагает нормальное распределение весов и квантует их максимально эффективно . Это позволяет дообучать огромные модели на обычном потребительском железе, экономя до 16 раз больше видеопамяти .

💬 Цитаты

«Претрейнинг — это безусловно самая дорогая часть обучения как с точки зрения вычислений, так и стоимости.»

«Мы хотим, чтобы модель была не просто предсказателем следующего токена, а полезным помощником.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
FLOPs
Общее количество операций с плавающей запятой, мера вычислительной работы.
Knowledge Cutoff
Дата отсечки знаний, после которой модель ничего не знает о событиях в мире, так как данные не попали в обучение.
HBM
Высокоскоростная видеопамять графического процессора, большая, но медленнее внутренней памяти чипа.
SFT
Метод дообучения модели на качественных примерах диалогов для придания ей нужного стиля поведения.
📊 Цифры
🗓 Хронология
  1. 2020 Публикация ключевой статьи OpenAI о Scaling Laws для нейросетевых языковых моделей.
  2. 2022 Разработка алгоритма Flash Attention в Стэнфорде.
  3. Октябрь 2025 Проведение текущей лекции курса CME295 в Стэнфорде.
⚖️ Другая сторона
Искусственный интеллект Stanford University Flash Attention LoRA Scaling Laws SFT