Филип Изола: «Простые алгоритмы побеждают благодаря масштабированию»

MIT OpenCourseWare 1,3 тыс. 38 мин 3 мин 11.02.2026
Главное

Законы масштабирования: как предсказать эффективность ИИ

Современное глубокое обучение демонстрирует впечатляющие результаты, когда модели обучаются на огромных массивах данных с использованием колоссальных вычислительных мощностей. В последние годы исследователи заметили, что поведение таких систем при увеличении ресурсов становится удивительно предсказуемым, что привело к формулировке так называемых «законов масштабирования» (scaling laws). Филип Изола, лектор MIT, отмечает, что эти закономерности позволяют не только планировать распределение ресурсов, но и делать обоснованные прогнозы о возможностях будущих нейросетевых моделей.

📉 Законы масштабирования: от Moore's Law к AI

Графики, демонстрирующие рост вычислительных затрат на обучение моделей за последние годы, напоминают закон Мура, однако скорость этого процесса значительно выше. Если ранее считалось, что количество транзисторов удваивается каждые два года, то в сфере глубокого обучения объем вычислительных мощностей (flops) для обучения топовых моделей удваивается каждые несколько месяцев.

Важным идеологическим фундаментом для изучения этого вопроса стало эссе Ричарда Саттона «Горький урок» (The Bitter Lesson), опубликованное в 2019 году. Основной тезис Саттона заключается в следующем:

🖥️ Оптимальное использование бюджета

Один из ключевых вопросов в области масштабирования: как оптимально распределить вычислительный бюджет (compute budget), чтобы получить максимальную производительность? Исследователи OpenAI, в частности, использовали эту методологию для проектирования GPT-4, избегая дорогостоящих переборов параметров на больших масштабах.

Вместо того чтобы тратить миллионы долларов на создание множества вариантов финальной модели, компания проводит серию экспериментов на уменьшенном масштабе — в 10 000 раз меньше целевого. На основе полученных данных строится кривая предсказания производительности (test loss) в зависимости от затраченных флопсов. Это позволяет выбрать архитектуру, которая, согласно расчетам, обеспечит наилучший результат при итоговом полномасштабном обучении.

📊 Математическая природа законов масштабирования

В 2020 году команда под руководством Джареда Каплана и Сэма Маккэндлиша опубликовала фундаментальную работу по законам масштабирования для авторегрессионных трансформеров. Эти ученые позже стали одними из основателей компании Anthropic. Их работа показала, что связь между тестовыми потерями (test loss) и ключевыми ресурсами (количество параметров, объем данных или вычислительная мощность) описывается степенной функцией (power law).

Основные выводы по работе с ресурсами:

Филип Изола подчеркивает, что подобные зависимости проявляются не только для тренировочных потерь, но и для конкретных метрик производительности в задачах, например, при решении математических тестов или программировании.

⚖️ Секрет эффективности: данные или архитектура?

Исследователи задаются вопросом, что важнее увеличивать: объем данных или количество параметров нейросети? Анализ показал, что для достижения минимальных потерь на каждый уровень вычислительного бюджета существует оптимальное соотношение этих факторов.

Несмотря на критику, согласно которой с пятью свободными параметрами можно «подогнать даже слона» (известная фраза, часто приписываемая физикам), такие модели успешно проходят проверку кросс-валидацией. Они позволяют предсказывать поведение систем на больших порядках величин, чем те, на которых они были изначально обучены.

💬 Цитаты

«Единственное, что систематически работает, — это проектирование простых алгоритмов, которые хорошо масштабируются.»

Филип Изола 04:15

«С пятью свободными параметрами я могу подогнать слона.»

Филип Изола 32:20
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Scaling Laws
Математические закономерности, описывающие, как производительность модели меняется в зависимости от ресурсов.
Flops
Количество операций с плавающей запятой, используемое для измерения вычислительных затрат.
Pareto frontier
Граница оптимальных решений, где невозможно улучшить один показатель без ухудшения другого.
Log-log plot
График, где обе оси имеют логарифмическую шкалу для отображения степенных зависимостей в виде прямых линий.
📊 Цифры
🗓 Хронология
  1. 2018 Период, заканчивающийся на графиках роста compute для deep learning.
  2. 2019 Публикация эссе Ричарда Саттона «Горький урок».
  3. 2020 Популяризация идеи законов масштабирования в работе OpenAI.
⚖️ Другая сторона
Искусственный интеллект Scaling Laws Deep Learning OpenAI Transformer