# Тупик масштабирования ИИ: почему Кильхер не верит в вычислительный кризис

Источник: https://www.youtube.com/watch?v=wTzvKB6D_34
Канал: Yannic Kilcher
Опубликовано: 02.10.2021

---

В недавнем обзоре на своем YouTube-канале Янник Кильхер разобрал резонансную статью из журнала IEEE Spectrum под названием «Закон убывающей доходности глубокого обучения: стоимость улучшений становится неподъемной». Авторы оригинального материала утверждают, что экспоненциальный рост вычислительных затрат на обучение нейросетей ведет индустрию к неизбежному тупику. В противовес этому пессимистичному прогнозу ведущий предлагает более прагматичный взгляд, подчеркивая историческую важность алгоритмических инноваций, которые традиционно преодолевали технологические плато.

## 🧠 От перцептрона Розенблатта до парадоксов избыточной параметризации
[[JUMP:0:00]]

Анализируемый материал, подготовленный исследователями Нилом Томпсоном, Кристианом Гринвальдом, Кихоном Ли и Габриэлем Монсо, начинается с признания неоспоримых успехов Deep Learning. Сюда авторы относят прорывы в машинном переводе, предсказании свёртывания белков и победы над человеком в сложных играх уровня Го. 

При этом исследователи напоминают, что фундамент технологии был заложен еще в 1958 году, когда Фрэнк Розенблатт в Корнеллском университете спроектировал первый искусственный нейросетевой перцептрон. Уже тогда создатель технологии осознавал грядущие ограничения, заявляя, что с ростом числа связей в сети нагрузка на обычные цифровые компьютеры быстро станет чрезмерной.

Современный ренессанс ИИ стал возможен благодаря закону Мура, обеспечившему примерно 10-миллионное увеличение вычислительной мощности процессоров, а также переходу на специализированное железо — графические процессоры (GPU) и тензорные ускорители (TPU). Однако сегодня, по мнению авторов статьи, исследователи ИИ снова уперлись в технологический барьер. В качестве подтверждения этого тезиса Янник Кильхер напоминает слова главы OpenAI Сэма Альтмана о том, что модель GPT-4 не станет принципиально больше GPT-3 по числу параметров, а прогресс будет достигаться за счет эффективности обучения.

Одной из главных архитектурных особенностей современных нейросетей является их избыточная параметризация. Авторы статьи приводят в пример модель Noisy Student:

* Она содержит около 480 миллионов параметров.
* При этом обучается всего на 1,2 миллиона размеченных изображений из датасета ImageNet.

С точки зрения классической статистической теории, такой дисбаланс должен приводить к жесточайшему переобучению (overfitting), когда модель зазубривает случайные шумы из обучающей выборки вместо поиска общих закономерностей. На практике глубокое обучение избегает этой ловушки благодаря случайной инициализации весов и методу стохастического градиентного спуска (SGD). Как отмечает Янник Кильхер, в научном сообществе до сих пор нет консенсуса и исчерпывающих математических доказательств того, почему избыточно параметризованные сети так хорошо обобщают данные в реальном мире.

## 📊 Масштабирование вычислений: теория против суровой реальности
[[JUMP:4:37]]

Гибкость нейросетей оборачивается колоссальными вычислительными издержками. Согласно приведенной в статье математической логике, у этого процесса есть две составляющие:

1.  Для улучшения производительности любой статистической модели в $k$ раз требуется увеличить объем обучающих данных как минимум в $k^2$ раз.
2.  Фактор избыточной параметризации накладывает дополнительные требования, из-за чего совокупные вычислительные затраты для улучшения модели в $k$ раз должны возрастать как $k^4$. Таким образом, для повышения точности в 10 раз вычисления теоретически нужно нарастить в 10 000 раз.

Однако реальная практика оказалась намного суровее теории. Собранные авторами статьи статистические данные показывают, что эмпирические требования к вычислениям для достижения заданного прогресса растут как минимум в девятой степени ($k^9$).

Экстраполируя графики снижения ошибок классификации на датасете ImageNet со времен триумфа архитектуры AlexNet в 2012 году, исследователи пришли к выводу, что рубеж в 5% ошибок будет достигнут примерно к 2025 году. Янник Кильхер иронизирует над этой прямолинейной логикой, отмечая, что, согласно такому графику, ученым можно ничего не делать, а просто сидеть и ждать наступления 2025 года. Проблема заключается в том, что для снижения уровня ошибок до 5% потребуется совершить порядка $10^{18}$ операций с плавающей запятой (FLOPs).

## 🌱 Экологический след ИИ и алгоритмические инновации
[[JUMP:7:40]]

Авторы исследования сопоставили рост вычислительных мощностей с эквивалентными выбросами углекислого газа (CO2). На момент публикации обзора затраты на однократное обучение передовой модели находились в диапазоне между годовым объемом выбросов одного среднестатистического жителя США и объемом, который этот житель генерирует за всю свою жизнь. Если же довести вычисления до отметки $10^{18}$ FLOPs, то затраты энергии на обучение одной-единственной модели сравняются с объемом углекислого газа, производимым всем Нью-Йорком в течение целого месяца.

Янник Кильхер высказывает серьезные сомнения относительно корректности подобных долгосрочных экстраполяций по нескольким причинам:

* Зигзагообразный характер графиков прогресса ИИ указывает на то, что прямолинейное продление тренда некорректно, а точка 2020 года сильно выбивается из общей колеи.
* Энергия энергии рознь. Крупные технологические гиганты активно инвестируют в углеродную нейтральность. Например, Google заявляет о нулевом балансе выбросов и имеет возможность гибко перераспределять вычислительные нагрузки по дата-центрам по всему миру туда, где в данный момент доступна наиболее чистая и эффективная энергия.
* Масштабирование никогда не происходило в вакууме — оно всегда шло рука об руку с архитектурными изобретениями. 

В качестве примера ведущий приводит появление остаточных связей (residual connections) в сетях ResNet. Это изобретение позволило резко увеличить глубину слоев без эквивалентного раздувания числа параметров и роста неэффективных вычислений. По мнению Кильхера, именно фундаментальные алгоритмические открытия открывают шлюзы для эффективного освоения новых вычислительных объемов, а не наоборот.

Сами авторы статьи в IEEE Spectrum признают, что их апокалиптический сценарий с «выжиганием энергии целых мегаполисов» вряд ли реализуется физически. Столкнувшись с астрономическими бюджетами, исследователи будут вынуждены либо искать принципиально новые методы оптимизации, либо просто забросят эти задачи, из-за чего прогресс в конкретных направлениях временно застопорится.

## 💰 Миллионы долларов за обучение: барьер или временные издержки?
[[JUMP:11:13]]

В статье приводятся конкретные финансовые показатели разработки ИИ-систем:

* Обучение системы AlphaStar и моделей для игры в Го обошлось подразделению DeepMind примерно в 35 миллионов долларов. Из-за дороговизны авторам пришлось целенаправленно отказаться от тестирования альтернативных архитектурных вариантов для критически важных компонентов.
* Стоимость разового обучения языковой модели GPT-3 составила около 4 миллионов долларов. Когда в процессе обучения была допущена ошибка, разработчики приняли решение не перезапускать процесс, так как повторные траты были экономически нецелесообразны.

Янник Кильхер предлагает взглянуть на эти многомиллионные суммы под другим углом. Во-первых, на фоне операционных расходов и зарплат сотен высококлассных инженеров, работающих над проектами, миллионы долларов на оплату серверов не выглядят катастрофическими. Во-вторых, этот этап высокой стоимости неизбежен для любой прорывной технологии на ее старте. 

> «Сегодня я могу запустить и дообучить модель BERT, не выходя из дома, на бесплатном сервере Google Colab или на своей домашней видеокарте. Но это стало возможным только потому, что в свое время Google вложила гигантские ресурсы, совершила кучу ошибок и нащупала работающую методику».

С точки зрения Кильхера, колоссальные стартовые затраты первопроходцев оплачивают будущую доступность технологии для всего остального рынка. Спустя несколько лет процессы оптимизируются, кастомное железо дешевеет, и затраты падают на порядки.

## 🛠 В поисках выхода: специализированное железо, дистилляция и метаобучение
[[JUMP:13:25]]

В статье рассматриваются несколько путей преодоления вычислительного кризиса, однако авторы оценивают их скептически. 

Первый путь — создание узкоспециализированных чипов под глубокое обучение. Проблема здесь кроется в неизбежном компромиссе между специализацией процессора и универсальностью его применения. Чрезмерная аппаратная заточка под текущие алгоритмы оборачивается падением доходности и фактически связывает руки исследователям, лишая их возможности внедрять принципиально новые архитектурные подходы, которые специализированный чип просто не сможет аппаратно поддержать.

Второй путь — уменьшение размера итоговых сетей (дистилляция моделей). Исследователи справедливо критикуют этот подход как средство экономии бюджетов на обучение: чтобы получить сжатую модель, разработчикам сначала всё равно приходится тратить огромные ресурсы на обучение исходной гигантской нейросети, а затем запускать повторный процесс дистилляции. Впрочем, Кильхер соглашается, что это отличный вариант для оптимизации фазы инференса (работы готовой модели на устройствах пользователей), как это происходит в случае с GPT-3.

Третий путь — метаобучение (meta-learning), в рамках которого алгоритм пытается обучить нейросеть «правильной стартовой инициализации» для широкого пула задач. Теоретически это должно резко снизить затраты на обучение под каждую конкретную доменную задачу. Однако Кильхер разделяет пессимизм авторов: на текущем этапе метаобучение хорошо работает только в академических статьях, где тестовые задачи известны авторам заранее. В реальности даже минимальный сдвиг в распределении данных между обучающей выборкой и практической задачей приводит к катастрофическому падению качества работы системы.

## 🔍 Парадокс репликации данных и тупик экспертных систем
[[JUMP:15:25]]

Для иллюстрации хрупкости современных моделей авторы статьи ссылаются на известную работу Бенджамина Рехта из Калифорнийского университета в Беркли. Исследователи попытались максимально точно воспроизвести методику сбора исходного датасета ImageNet и создали новую независимую тестовую выборку (известную как ImageNet v2). Результат оказался тревожным: у всех протестированных классификаторов точность на новом датасете упала в среднем на 10%.

Янник Кильхер указывает на важный нюанс, который авторы статьи предпочли опустить. Существует альтернативное исследование ученых из MIT и Беркли («Выявление статистического смещения при репликации датасетов»). В нем аргументированно доказывается, что между механизмами сбора данных ImageNet v1 и v2 закралось едва заметное методологическое различие. Из-за него изображения во втором датасете объективно оказались более сложными для распознавания. Когда исследователи математически скорректировали это смещение выборки, пресловутое 10-процентное падение точности практически полностью испарилось. Таким образом, данный пример не может служить чистым доказательством концептуальной слабости обобщающей способности нейросетей.

Финальная рекомендация авторов оригинальной статьи заключается в необходимости постепенного отхода от классического глубокого обучения в сторону альтернативных, пока недооцененных методов — например, нейросимволического подхода (neurosymbolic methods). Идея состоит в том, чтобы объединить гибкость нейросетей с жесткой логикой, экспертными правилами и базами знаний, что теоретически должно быть намного эффективнее с вычислительной точки зрения.

Янник Кильхер выражает скепсис по поводу этого вечного спора в ИИ-сообществе. По его мнению, простота и вычислительная эффективность метода сами по себе не являются веской причиной для перехода на него, если итоговое качество систем остается низким. 

Исторический опыт развития индустрии раз за разом доказывает «горький урок» компьютерных наук: как только любая чисто обучаемая модель получает доступ к достаточному объему данных, она начинает всухую обыгрывать системы, построенные на жестких экспертных правилах и априорных допущениях человека. Нейросимволический подход сможет стать полноценной альтернативой только тогда, когда докажет свою способность превосходить чисто емкие ИИ-модели по качеству, а не просто выступать их более дешевым и компромиссным заменителем.