Scaling laws в 2025 году: Уроки DeepSeek, MiniCPM и Cerebras

Stanford Online 21,4 тыс. 1 ч 18 мин 2 мин 02.06.2025
Главное

🧠 Стратегии масштабирования больших языковых моделей: Кейс-стади и уроки индустрии 0:04

Масштабирование современных языковых моделей (LLM) — это сложный инженерный процесс, требующий поиска оптимального баланса между вычислительным бюджетом, архитектурными решениями и гиперпараметрами. В ходе 11-й лекции курса CS336 в Стэнфордском университете ведущий детально разобрал подходы таких проектов, как Cerebras-GPT, MiniCPM и DeepSeek. Основная проблема, стоящая перед разработчиками, заключается в том, что по мере роста моделей оптимальные значения гиперпараметров меняются, что делает процесс настройки дорогостоящим и неэффективным.

🚀 Методологии стабилизации гиперпараметров 3:31

Одной из главных трудностей при обучении моделей огромного масштаба является поиск стабильных гиперпараметров, которые не требовали бы полной перенастройки при изменении размера сети.

Метод muP (Maximal Update Parameterization) 4:36

Для решения проблемы смещения оптимальной скорости обучения (learning rate) при увеличении ширины модели исследователи используют подход muP.

Эмпирический подход DeepSeek 33:01

В отличие от сторонников muP, разработчики DeepSeek выбрали прямой метод оценки гиперпараметров.

📊 Оптимизация данных и Chinchilla-анализ 18:28

Понимание того, сколько токенов необходимо на один параметр, остается «золотым стандартом» для оценки эффективности обучения.

🧪 Что работает, а что нет: Ablation-исследования

Анализ независимых исследователей по переносу гиперпараметров (mu transfer) выявил ключевые факторы, влияющие на устойчивость обучения.

💬 Цитаты

«Если вы уже используете Kaiming-инициализацию, это уже 1/sqrt(fanin)... а скорость обучения обычно глобальная константа. Это будет большая разница.»

«Cool down на самом деле критичен. А lot of the optimizer learning rate design is about this balance.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
muP (Maximal Update Parameterization)
Парадигма параметризации нейросетей, позволяющая сохранять стабильность гиперпараметров при масштабировании ширины модели.
WSD (Warm-up, Stable, Decay)
График обучения с тремя фазами: быстрый прогрев, стабильное плато и резкое снижение learning rate для дообучения.
Isoflops
Анализ, позволяющий найти оптимальное соотношение количества параметров и токенов для фиксированного вычислительного бюджета.
Weight decay
Метод регуляризации, штрафующий модель за большие веса для предотвращения переобучения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Scaling laws muP DeepSeek MiniCPM Chinchilla