# Scaling laws в 2025 году: Уроки DeepSeek, MiniCPM и Cerebras

Источник: https://www.youtube.com/watch?v=OSYuUqGBQxw
Канал: Stanford Online
Опубликовано: 02.06.2025

---

## 🧠 Стратегии масштабирования больших языковых моделей: Кейс-стади и уроки индустрии
[[JUMP:0:04]]

Масштабирование современных языковых моделей (LLM) — это сложный инженерный процесс, требующий поиска оптимального баланса между вычислительным бюджетом, архитектурными решениями и гиперпараметрами. В ходе 11-й лекции курса CS336 в Стэнфордском университете ведущий детально разобрал подходы таких проектов, как Cerebras-GPT, MiniCPM и DeepSeek. Основная проблема, стоящая перед разработчиками, заключается в том, что по мере роста моделей оптимальные значения гиперпараметров меняются, что делает процесс настройки дорогостоящим и неэффективным.

## 🚀 Методологии стабилизации гиперпараметров
[[JUMP:3:31]]

Одной из главных трудностей при обучении моделей огромного масштаба является поиск стабильных гиперпараметров, которые не требовали бы полной перенастройки при изменении размера сети.

### Метод muP (Maximal Update Parameterization)
[[JUMP:4:36]]

Для решения проблемы смещения оптимальной скорости обучения (learning rate) при увеличении ширины модели исследователи используют подход muP.

*   **Суть:** Использование альтернативной параметризации, при которой оптимальный learning rate остается практически неизменным при масштабировании.
*   **Реализация:**
    1.  Инициализация всех параметров (кроме эмбеддингов) множителем $1/width$.
    2.  Масштабирование скорости обучения для каждого слоя множителем $1/width$.
*   **Результат:** Исследователи Cerebras-GPT продемонстрировали, что muP обеспечивает более предсказуемые кривые потерь и минимизирует осцилляции по сравнению со стандартной параметризацией.

### Эмпирический подход DeepSeek
[[JUMP:33:01]]

В отличие от сторонников muP, разработчики DeepSeek выбрали прямой метод оценки гиперпараметров.

*   **Стратегия:** Проведение серии сеток (grid search) по размеру батча и скорости обучения на моделях разных масштабов.
*   **Выводы:** Несмотря на использование глобального learning rate, разработчики полагаются на аппроксимацию зависимостей через скейлинговые законы для предсказания оптимальных параметров для крупных моделей.

## 📊 Оптимизация данных и Chinchilla-анализ
[[JUMP:18:28]]

Понимание того, сколько токенов необходимо на один параметр, остается «золотым стандартом» для оценки эффективности обучения.

*   **Инновация WSD (Warm-up, Stable, Decay):** Разработчики MiniCPM популяризировали график обучения, состоящий из фазы прогрева (warm-up), стабильного плато и быстрого цикла охлаждения (decay).
    *   **Преимущество:** Это позволяет проводить Chinchilla-анализ в рамках одного обучающего цикла, просто используя разные точки «охлаждения» модели для оценки данных.
*   **Отход от правила 20:1:** Современные модели (например, Llama 3) показывают, что отношение токенов к параметрам может быть значительно выше 20:1 (вплоть до 40:1 и выше) без явных признаков снижения эффективности,.

## 🧪 Что работает, а что нет: Ablation-исследования
[[JUMP:112:47]]

Анализ независимых исследователей по переносу гиперпараметров (mu transfer) выявил ключевые факторы, влияющие на устойчивость обучения.

*   **Что не ломает перенос learning rate:** Изменение типов активаций (SwiGLU, ReLU), изменение batch size, а также специфические инициализации (например, обнуление query-матриц),,.
*   **Что ломает перенос:**
    1.  Использование обучаемых смещений (biases).
    2.  Применение экзотических оптимизаторов, для которых muP не был адаптирован (например, Lion).
    3.  Использование слишком агрессивного weight decay.