🧠 Стратегии масштабирования больших языковых моделей: Кейс-стади и уроки индустрии 0:04
Масштабирование современных языковых моделей (LLM) — это сложный инженерный процесс, требующий поиска оптимального баланса между вычислительным бюджетом, архитектурными решениями и гиперпараметрами. В ходе 11-й лекции курса CS336 в Стэнфордском университете ведущий детально разобрал подходы таких проектов, как Cerebras-GPT, MiniCPM и DeepSeek. Основная проблема, стоящая перед разработчиками, заключается в том, что по мере роста моделей оптимальные значения гиперпараметров меняются, что делает процесс настройки дорогостоящим и неэффективным.
🚀 Методологии стабилизации гиперпараметров 3:31
Одной из главных трудностей при обучении моделей огромного масштаба является поиск стабильных гиперпараметров, которые не требовали бы полной перенастройки при изменении размера сети.
Метод muP (Maximal Update Parameterization) 4:36
Для решения проблемы смещения оптимальной скорости обучения (learning rate) при увеличении ширины модели исследователи используют подход muP.
- Суть: Использование альтернативной параметризации, при которой оптимальный learning rate остается практически неизменным при масштабировании.
- Реализация:
- Инициализация всех параметров (кроме эмбеддингов) множителем $1/width$.
- Масштабирование скорости обучения для каждого слоя множителем $1/width$.
- Результат: Исследователи Cerebras-GPT продемонстрировали, что muP обеспечивает более предсказуемые кривые потерь и минимизирует осцилляции по сравнению со стандартной параметризацией.
Эмпирический подход DeepSeek 33:01
В отличие от сторонников muP, разработчики DeepSeek выбрали прямой метод оценки гиперпараметров.
- Стратегия: Проведение серии сеток (grid search) по размеру батча и скорости обучения на моделях разных масштабов.
- Выводы: Несмотря на использование глобального learning rate, разработчики полагаются на аппроксимацию зависимостей через скейлинговые законы для предсказания оптимальных параметров для крупных моделей.
📊 Оптимизация данных и Chinchilla-анализ 18:28
Понимание того, сколько токенов необходимо на один параметр, остается «золотым стандартом» для оценки эффективности обучения.
- Инновация WSD (Warm-up, Stable, Decay): Разработчики MiniCPM популяризировали график обучения, состоящий из фазы прогрева (warm-up), стабильного плато и быстрого цикла охлаждения (decay).
- Преимущество: Это позволяет проводить Chinchilla-анализ в рамках одного обучающего цикла, просто используя разные точки «охлаждения» модели для оценки данных.
- Отход от правила 20:1: Современные модели (например, Llama 3) показывают, что отношение токенов к параметрам может быть значительно выше 20:1 (вплоть до 40:1 и выше) без явных признаков снижения эффективности,.
🧪 Что работает, а что нет: Ablation-исследования
Анализ независимых исследователей по переносу гиперпараметров (mu transfer) выявил ключевые факторы, влияющие на устойчивость обучения.
- Что не ломает перенос learning rate: Изменение типов активаций (SwiGLU, ReLU), изменение batch size, а также специфические инициализации (например, обнуление query-матриц),,.
- Что ломает перенос:
- Использование обучаемых смещений (biases).
- Применение экзотических оптимизаторов, для которых muP не был адаптирован (например, Lion).
- Использование слишком агрессивного weight decay.