Филип Изола: «Простые алгоритмы побеждают благодаря масштабированию»

Законы масштабирования: как предсказать эффективность ИИ

Современное глубокое обучение демонстрирует впечатляющие результаты, когда модели обучаются на огромных массивах данных с использованием колоссальных вычислительных мощностей. В последние годы исследователи заметили, что поведение таких систем при увеличении ресурсов становится удивительно предсказуемым, что привело к формулировке так называемых «законов масштабирования» (scaling laws). Филип Изола, лектор MIT, отмечает, что эти закономерности позволяют не только планировать распределение ресурсов, но и делать обоснованные прогнозы о возможностях будущих нейросетевых моделей.

📉 Законы масштабирования: от Moore's Law к AI

Графики, демонстрирующие рост вычислительных затрат на обучение моделей за последние годы, напоминают закон Мура, однако скорость этого процесса значительно выше. Если ранее считалось, что количество транзисторов удваивается каждые два года, то в сфере глубокого обучения объем вычислительных мощностей (flops) для обучения топовых моделей удваивается каждые несколько месяцев.

Важным идеологическим фундаментом для изучения этого вопроса стало эссе Ричарда Саттона «Горький урок» (The Bitter Lesson), опубликованное в 2019 году. Основной тезис Саттона заключается в следующем:

Сложные алгоритмические идеи, предлагаемые исследователями, часто не оправдывают себя в долгосрочной перспективе.
Единственный систематически эффективный подход — это проектирование простых алгоритмов, которые хорошо масштабируются.
Модель, которая лучше масштабируется, неизбежно победит в конкурентной борьбе, независимо от того, какие алгоритмы показывают лучшие результаты на ранних этапах.

🖥️ Оптимальное использование бюджета

Один из ключевых вопросов в области масштабирования: как оптимально распределить вычислительный бюджет (compute budget), чтобы получить максимальную производительность? Исследователи OpenAI, в частности, использовали эту методологию для проектирования GPT-4, избегая дорогостоящих переборов параметров на больших масштабах.

Вместо того чтобы тратить миллионы долларов на создание множества вариантов финальной модели, компания проводит серию экспериментов на уменьшенном масштабе — в 10 000 раз меньше целевого. На основе полученных данных строится кривая предсказания производительности (test loss) в зависимости от затраченных флопсов. Это позволяет выбрать архитектуру, которая, согласно расчетам, обеспечит наилучший результат при итоговом полномасштабном обучении.

📊 Математическая природа законов масштабирования

В 2020 году команда под руководством Джареда Каплана и Сэма Маккэндлиша опубликовала фундаментальную работу по законам масштабирования для авторегрессионных трансформеров. Эти ученые позже стали одними из основателей компании Anthropic. Их работа показала, что связь между тестовыми потерями (test loss) и ключевыми ресурсами (количество параметров, объем данных или вычислительная мощность) описывается степенной функцией (power law).

Основные выводы по работе с ресурсами:

Степенной закон выглядит как отношение 1 / (ресурс ^ alpha), где alpha — показатель степени, зависящий от задач и архитектуры.
Если удвоить ресурсы, потери снижаются пропорционально степени alpha.
При логарифмическом масштабе (log-log plot) эта зависимость превращается в прямую линию, что удобно для эмпирического анализа.

Филип Изола подчеркивает, что подобные зависимости проявляются не только для тренировочных потерь, но и для конкретных метрик производительности в задачах, например, при решении математических тестов или программировании.

⚖️ Секрет эффективности: данные или архитектура?

Исследователи задаются вопросом, что важнее увеличивать: объем данных или количество параметров нейросети? Анализ показал, что для достижения минимальных потерь на каждый уровень вычислительного бюджета существует оптимальное соотношение этих факторов.

Если модель слишком мала, увеличение объема данных не даст прироста производительности.
Для получения лучших результатов нужно увеличивать размер модели (количество параметров) и объем данных (количество токенов) согласованно.
Согласно текущим эмпирическим оценкам, эффективнее выделять значительную часть вычислительного ресурса на увеличение размера модели (параметров), чем на бесконечное наращивание объема данных.

Несмотря на критику, согласно которой с пятью свободными параметрами можно «подогнать даже слона» (известная фраза, часто приписываемая физикам), такие модели успешно проходят проверку кросс-валидацией. Они позволяют предсказывать поведение систем на больших порядках величин, чем те, на которых они были изначально обучены.