Законы масштабирования LLM: от теории Вапника до 30 триллионов токенов

Курс Стэнфордского университета CS336 посвящен созданию языковых моделей с нуля, и в рамках девятой лекции подробно разбираются законы масштабирования (scaling laws). Лектор объясняет, как эмпирические наблюдения позволяют прогнозировать поведение огромных нейросетей на основе экспериментов с малыми моделями, экономя колоссальные вычислительные ресурсы. В материале рассматривается история развития этих законов от классической теории машинного обучения до современных подходов вроде Chinchilla и концепции оптимизации под стоимость инференса.

🧠 От мысленного эксперимента к инженерной науке 0:04

Представьте, что богатый друг предоставил вам 100 000 графических процессоров H100 на один месяц и поставил задачу обучить лучшую языковую модель с открытым исходным кодом. У вас уже есть команда инженеров, фреймворк для распределенного обучения, подготовленные данные и понимание архитектур. Однако простое копирование существующих решений вроде Llama ограничит инновационный потенциал и не позволит раздвинуть технологические границы.

Чтобы создавать передовые модели, необходимо уметь предсказывать их поведение. Суть законов масштабирования заключается в построении простых прогностических правил, которые позволяют брать малые модели, увеличивать их масштаб и использовать полученные знания для оптимизации больших систем. Старый, неэффективный подход к глубокому обучению заключался в слепом обучении гигантских сетей и ручном подборе гиперпараметров, что требовало астрономических финансовых затрат. Новый подход предлагает учиться на малых архитектурах и экстраполировать результаты на масштабные проекты.

Законы масштабирования часто обсуждаются в мессианских терминах достижения сильного искусственного интеллекта (AGI) и сверхразума, однако они имеют вполне приземленную и содержательную историю. Лектор подчеркивает, что это не просто подгонка прямых линий на логарифмических графиках, а глубоко обоснованная эмпирическая дисциплина.

📚 Теоретические корни и первые открытия 3:23

С точки зрения классического статистического машинного обучения, законы масштабирования описывают то, как при изменении объема данных или размера модели меняется ее эффективность. В теоретической базе ИИ существуют такие понятия, как размерность Вапника-Червоненкиса (VC dimension) и сложность Радемахера. Они предсказывают, что верхняя граница избыточного риска обучения должна уменьшаться пропорционально $1/\sqrt{n}$, где $n$ — это размер выборки.

Для непараметрического генеративного моделирования теоретики вывели более сложные формулы, где ошибка L2 ограничивается полиномиальной скоростью, зависящей от гладкости функции. Однако все эти академические выкладки дают лишь верхние теоретические границы, которые часто оказываются слишком грубыми. Современные законы масштабирования совершили качественный скачок от абстрактной теории к эмпирическому моделированию реальных потерь.

Исторически первая статья о законах масштабирования нейросетей была представлена еще в 1993 году на конференции NeurIPS учеными из Bell Labs, среди которых были Владимир Вапник и Коринна Кортес. В этой работе авторы отметили, что обучение классификаторов на больших базах данных чрезвычайно требовательно к вычислительным ресурсам. Они предложили метод предсказания точности модели без необходимости полного обучения всей сети. Ошибка теста в их формуле выражалась как сумма неустранимой ошибки и полиномиально убывающего члена, что практически полностью совпадает с современными формулами.

Позже, в 2001 году, исследователи Мишель Банко и Эрик Брилл изучали системы обработки естественного языка (NLP) и доказали, что сбор данных дает куда более драматическое улучшение результатов, нежели усложнение алгоритмов. Уже тогда возник фундаментальный вопрос: стоит ли тратить время и деньги на разработку новых архитектур, если можно просто собрать больше данных? В 2017 году команда исследователей из Baidu под руководством Хестнесса опубликовала знаковую работу, показавшую степенную закономерность снижения ошибок в задачах машинного перевода, распознавания речи и компьютерного зрения.

Хестнесс выделил три ключевых режима поведения модели:

Режим случайного угадывания (начальный этап);
Режим степенного масштабирования (где логарифмический график линеен);
Асимптотический режим (приближение к неустранимой ошибке класса моделей).

Интересно, что многие современные идеи, такие как квантование весов или появление эмерджентных способностей, были интуитивно понятны авторам этих ранних исследований. По мнению лектора, предсказуемые инвестиции в ресурсы ведут к предсказуемому росту возможностей. На вопрос из аудитории о существовании систем, которые не поддаются масштабированию, лектор упомянул премию Inverse Scaling Prize. Исследования выявили редкие задачи, где большие модели справляются хуже малых (например, сильные сети склонны избыточно копировать текст, и это поведение трудно подавить), но в рамках тестовых потерь на валидационной выборке масштабирование работает бесперебойно.

📊 Законы масштабирования данных: математика процесса 12:04

Эмпирические результаты показывают, что законы масштабирования стабильно проявляются во множестве переменных. В классической статье Джареда Каплана и его коллег из OpenAI 2020 года наглядно продемонстрирована линейная зависимость между логарифмом вычислением (Flops) и логарифмом тестовых потерь. Аналогичные чистые прямые линии получаются при анализе объема датасета и количества параметров. Важный нюанс: при оценке масштабирования данных размер модели всегда выбирается избыточно большим, чтобы избежать преждевременного насыщения.

Математическая формула масштабирования данных связывает объем выборки $n$ с избыточной ошибкой. На логарифмическом графике эта связь выглядит как прямая линия, что указывает на полиномиальную зависимость. Лектор приводит два примера, объясняющих, почему полиномиальное убывание естественно.

Первый пример — простейшая задача оценки среднего значения выборки из гауссова распределения. Ожидаемая квадратичная ошибка оценки составляет $\sigma^2 / n$. Если взять логарифм от обеих частей уравнения, получится классическая прямая с наклоном, равным единице.

Однако на практике в глубоком обучении наклоны графиков оказываются значительно более пологими:

Для машинного перевода показатель степени составляет 0,13;
Для распознавания речи — 0,3;
Для языкового моделирования — 0,095.

Причину таких медленных темпов обучения объясняет второй пример — непараметрическая регрессия произвольной гладкой функции в двумерном пространстве. Если разбить пространство на квадраты, ошибка аппроксимации будет масштабироваться как $n^{-1/d}$, где $d$ — размерность данных. Таким образом, реальный наклон графика законов масштабирования отражает внутреннюю имплицитную размерность (intrinsic dimensionality) обрабатываемых данных и сложность их усвоения.

⚙️ Практическое применение в инженерии данных 21:08

Законы масштабирования критически важны для принятия инженерных решений. Эксперименты Каплана показали, что состав и качество данных влияют лишь на вертикальный сдвиг (смещение) графика потерь, но не меняют наклон самой прямой. Это означает, что разработчики могут тестировать различные методы фильтрации данных на очень маленьких моделях, будучи уверенными, что лучшие конфигурации сохранят свою эффективность и при масштабном обучении.

Другой актуальный вызов — угроза исчерпания качественных данных в интернете. Исследования многоэпохового обучения показывают, что при повторном использовании данных возникает эффект быстрого снижения отдачи. Эффективный размер выборки падает, и после примерно четырех эпох повторения одних и тех же токенов прогресс практически останавливается.

Перед инженерами, работающими с триллионами токенов, встает дилемма:

Многократно повторять высококачественные источники (например, Википедию или закрытые библиотеки книг);
Включать в обучение новые, но гораздо более грязные и низкокачественные данные из веб-дампов.

Исследователи из Университета Карнеги — Меллона (CMU) предложили математические модели для расчета оптимального баланса в этой ситуации. На основе законов масштабирования можно спрогнозировать итоговые потери для любой пропорции смешивания данных до запуска многомиллионных вычислений.

🏗️ Масштабирование моделей и архитектурные ловушки 25:58

Переходя к масштабированию самих моделей, инженеры сталкиваются с огромным выбором: использовать трансформеры, современные State Space Models (SSM), оптимизаторы вроде Adam или классический SGD. Вместо дорогостоящего обучения огромной сети, законы масштабирования предлагают запустить серию коротких тестов. Например, сравнение архитектур LSTM и Transformer показало, что LSTM имеет стабильный штраф по вычислительной эффективности — на любом масштабе они примерно в 15 раз уступают трансформерам.

Специалисты из Google провели масштабное исследование альтернативных архитектур, сопоставляя их с базовым трансформером. Выяснилось, что надежно превзойти стандартный Transformer способны лишь архитектуры с гейтированными линейными блоками (GLU) и модели смеси экспертов (Mixture of Experts, MoE). Именно поэтому данные подходы доминируют в современных ИИ-лабораториях. Аналогично, выбор оптимизатора Adam вместо SGD дает фиксированный выигрыш в эффективности вычислений на единицу данных.

Важные выводы касаются геометрии моделей:

Соотношение глубины и ширины сети (aspect ratio) имеет широкую зону оптимума. Каплан доказал, что любое соотношение от 10 до 100 работает примерно одинаково хорошо на разных масштабах, поэтому тратить ресурсы на его скрупулезный подбор не имеет смысла.
Не все параметры модели одинаково полезны. При расчетах законов масштабирования необходимо полностью исключать параметры эмбеддингов, так как они ломают красивую логарифмическую линейность и ведут себя нетипично. Для моделей MoE ученым приходится выводить формулу «эквивалентного числа плотных параметров», чтобы корректно сопоставлять их с обычными сетями.

⚡ Оптимизация обучения: батчи, темп и Reparameterization 34:14

Размер батча (batch size) и скорость обучения (learning rate) — два самых капризных параметра при масштабировании. Увеличение размера батча эффективно лишь до определенного порога, называемого критическим размером батча (critical batch size). Пока батч мал, его удвоение эквивалентно двум шагам оптимизации, что отлично распараллеливается на видеокартах. Но за критической точкой добавление новых примеров перестает снижать полезный шум градиента, и эффективность падает.

Интересно, что критический размер батча жестко связан с целевым уровнем потерь модели. По мере улучшения качества модели и снижения потерь, критический батч возрастает. Именно поэтому создатели Llama 3 увеличивали размер батча непосредственно в процессе обучения по мере созревания нейросети.

Традиционно при расширении модели инженерам приходилось уменьшать скорость обучения (правило «единица на ширину сети»). Для этого строились сложные графики поиска минимумов. Однако современная индустрия переходит на метод максимальной параметризации обновлений ($\mu$P или Maximal Update Parametrization). Этот подход особым образом масштабирует инициализацию весов и скорость обучения на разных слоях в зависимости от ширины модели. В результате оптимальная скорость обучения, найденная на крошечной модели, без изменений переносится на гигантскую сеть. По словам лектора, компания Meta при создании Llama 4 заявила об использовании собственной модификации под названием metaP.

⚠️ Парадокс downstream-метрик и феномен Chinchilla 43:37

Лектор призывает к осторожности: законы масштабирования идеально работают для функции кросс-энтропии (perplexity) на предсказание следующего токена. Но когда эти же модели тестируют на реальных бенчмарках вроде SuperGLUE, красивая линейность исчезает. Из-за этого возникают неожиданные скачки качества или отставание альтернативных архитектур (например, SSM-модели отлично снижают перплексию, но могут хуже справляться с обучением в контексте или ответами на вопросы).

Долгое время фундаментальным оставался вопрос: на что выгоднее тратить фиксированный бюджет Flops — на увеличение числа параметров или на насыщение модели данными? Опубликованное в 2022 году исследование Chinchilla от инженеров DeepMind совершило революцию. Они доказали, что для достижения вычислительного оптимума на каждый параметр модели должно приходиться около 20 токенов данных. Ранее Каплан утверждал, что модели нужно делать огромными, даже если данных мало. Ошибка Каплана крылась в недооценке расписания косинусной скорости обучения (cosine learning rate schedule): косинусную кривую нельзя обрезать посредине, модель обязательно должна пройти полную фазу охлаждения до самого конца, иначе замеры потерь окажутся некорректными.

Для определения баланса авторы Chinchilla использовали три метода:

Метод нижней огибающей (minimum envelope) над множеством кривых обучения;
Isoflop-анализ (оценка минимумов потерь при фиксации определенного объема Flops);
Подгонка совместной функциональной формы (3D-подгонка параметров данных и модели).

Третий метод содержал вычислительную ошибку в аппроксимации, которую лишь спустя год обнаружили и исправили специалисты из Epoch AI. Они детективно восстановили данные по пикселям оригинальных графиков и пересчитали регрессию. После исправления ошибок метод полностью совпал с первыми двумя, подтвернив изначальную правоту концепции.

Сегодня фокус индустрии сместился с тренировочного оптимума (Chinchilla-optimal) к инференсному оптимуму. Поскольку модели становятся коммерческими продуктами, компаниям невыгодно содержать огромные нейросети ради экономии на этапе обучения. Выгоднее переобучить маленькую модель, влив в нее колоссальное количество данных. Так, современные модели Qwen обучаются на массивах в 30 триллионов токенов, многократно превышая пропорции Chinchilla ради минимизации стоимости последующей эксплуатации. В завершение лектор продемонстрировал, что законы масштабирования и Isoflop-анализ столь же безупречно работают для совершенно иных классов систем, таких как диффузионные текстовые модели, подтверждая универсальность данного инструмента.