Scaling laws в 2025 году: Уроки DeepSeek, MiniCPM и Cerebras

🧠 Стратегии масштабирования больших языковых моделей: Кейс-стади и уроки индустрии 0:04

Масштабирование современных языковых моделей (LLM) — это сложный инженерный процесс, требующий поиска оптимального баланса между вычислительным бюджетом, архитектурными решениями и гиперпараметрами. В ходе 11-й лекции курса CS336 в Стэнфордском университете ведущий детально разобрал подходы таких проектов, как Cerebras-GPT, MiniCPM и DeepSeek. Основная проблема, стоящая перед разработчиками, заключается в том, что по мере роста моделей оптимальные значения гиперпараметров меняются, что делает процесс настройки дорогостоящим и неэффективным.

🚀 Методологии стабилизации гиперпараметров 3:31

Одной из главных трудностей при обучении моделей огромного масштаба является поиск стабильных гиперпараметров, которые не требовали бы полной перенастройки при изменении размера сети.

Метод muP (Maximal Update Parameterization) 4:36

Для решения проблемы смещения оптимальной скорости обучения (learning rate) при увеличении ширины модели исследователи используют подход muP.

Суть: Использование альтернативной параметризации, при которой оптимальный learning rate остается практически неизменным при масштабировании.
Реализация:
1. Инициализация всех параметров (кроме эмбеддингов) множителем $1/width$.
2. Масштабирование скорости обучения для каждого слоя множителем $1/width$.
Результат: Исследователи Cerebras-GPT продемонстрировали, что muP обеспечивает более предсказуемые кривые потерь и минимизирует осцилляции по сравнению со стандартной параметризацией.

Эмпирический подход DeepSeek 33:01

В отличие от сторонников muP, разработчики DeepSeek выбрали прямой метод оценки гиперпараметров.

Стратегия: Проведение серии сеток (grid search) по размеру батча и скорости обучения на моделях разных масштабов.
Выводы: Несмотря на использование глобального learning rate, разработчики полагаются на аппроксимацию зависимостей через скейлинговые законы для предсказания оптимальных параметров для крупных моделей.

📊 Оптимизация данных и Chinchilla-анализ 18:28

Понимание того, сколько токенов необходимо на один параметр, остается «золотым стандартом» для оценки эффективности обучения.

Инновация WSD (Warm-up, Stable, Decay): Разработчики MiniCPM популяризировали график обучения, состоящий из фазы прогрева (warm-up), стабильного плато и быстрого цикла охлаждения (decay).
- Преимущество: Это позволяет проводить Chinchilla-анализ в рамках одного обучающего цикла, просто используя разные точки «охлаждения» модели для оценки данных.
Отход от правила 20:1: Современные модели (например, Llama 3) показывают, что отношение токенов к параметрам может быть значительно выше 20:1 (вплоть до 40:1 и выше) без явных признаков снижения эффективности,.

🧪 Что работает, а что нет: Ablation-исследования

Анализ независимых исследователей по переносу гиперпараметров (mu transfer) выявил ключевые факторы, влияющие на устойчивость обучения.

Что не ломает перенос learning rate: Изменение типов активаций (SwiGLU, ReLU), изменение batch size, а также специфические инициализации (например, обнуление query-матриц),,.
Что ломает перенос:
1. Использование обучаемых смещений (biases).
2. Применение экзотических оптимизаторов, для которых muP не был адаптирован (например, Lion).
3. Использование слишком агрессивного weight decay.