Тупик масштабирования ИИ: почему Кильхер не верит в вычислительный кризис

Yannic Kilcher 23,2 тыс. 20 мин 8 мин 02.10.2021
Главное

В недавнем обзоре на своем YouTube-канале Янник Кильхер разобрал резонансную статью из журнала IEEE Spectrum под названием «Закон убывающей доходности глубокого обучения: стоимость улучшений становится неподъемной». Авторы оригинального материала утверждают, что экспоненциальный рост вычислительных затрат на обучение нейросетей ведет индустрию к неизбежному тупику. В противовес этому пессимистичному прогнозу ведущий предлагает более прагматичный взгляд, подчеркивая историческую важность алгоритмических инноваций, которые традиционно преодолевали технологические плато.

🧠 От перцептрона Розенблатта до парадоксов избыточной параметризации 0:00

Анализируемый материал, подготовленный исследователями Нилом Томпсоном, Кристианом Гринвальдом, Кихоном Ли и Габриэлем Монсо, начинается с признания неоспоримых успехов Deep Learning. Сюда авторы относят прорывы в машинном переводе, предсказании свёртывания белков и победы над человеком в сложных играх уровня Го.

При этом исследователи напоминают, что фундамент технологии был заложен еще в 1958 году, когда Фрэнк Розенблатт в Корнеллском университете спроектировал первый искусственный нейросетевой перцептрон. Уже тогда создатель технологии осознавал грядущие ограничения, заявляя, что с ростом числа связей в сети нагрузка на обычные цифровые компьютеры быстро станет чрезмерной.

Современный ренессанс ИИ стал возможен благодаря закону Мура, обеспечившему примерно 10-миллионное увеличение вычислительной мощности процессоров, а также переходу на специализированное железо — графические процессоры (GPU) и тензорные ускорители (TPU). Однако сегодня, по мнению авторов статьи, исследователи ИИ снова уперлись в технологический барьер. В качестве подтверждения этого тезиса Янник Кильхер напоминает слова главы OpenAI Сэма Альтмана о том, что модель GPT-4 не станет принципиально больше GPT-3 по числу параметров, а прогресс будет достигаться за счет эффективности обучения.

Одной из главных архитектурных особенностей современных нейросетей является их избыточная параметризация. Авторы статьи приводят в пример модель Noisy Student:

С точки зрения классической статистической теории, такой дисбаланс должен приводить к жесточайшему переобучению (overfitting), когда модель зазубривает случайные шумы из обучающей выборки вместо поиска общих закономерностей. На практике глубокое обучение избегает этой ловушки благодаря случайной инициализации весов и методу стохастического градиентного спуска (SGD). Как отмечает Янник Кильхер, в научном сообществе до сих пор нет консенсуса и исчерпывающих математических доказательств того, почему избыточно параметризованные сети так хорошо обобщают данные в реальном мире.

📊 Масштабирование вычислений: теория против суровой реальности 4:37

Гибкость нейросетей оборачивается колоссальными вычислительными издержками. Согласно приведенной в статье математической логике, у этого процесса есть две составляющие:

  1. Для улучшения производительности любой статистической модели в $k$ раз требуется увеличить объем обучающих данных как минимум в $k^2$ раз.
  2. Фактор избыточной параметризации накладывает дополнительные требования, из-за чего совокупные вычислительные затраты для улучшения модели в $k$ раз должны возрастать как $k^4$. Таким образом, для повышения точности в 10 раз вычисления теоретически нужно нарастить в 10 000 раз.

Однако реальная практика оказалась намного суровее теории. Собранные авторами статьи статистические данные показывают, что эмпирические требования к вычислениям для достижения заданного прогресса растут как минимум в девятой степени ($k^9$).

Экстраполируя графики снижения ошибок классификации на датасете ImageNet со времен триумфа архитектуры AlexNet в 2012 году, исследователи пришли к выводу, что рубеж в 5% ошибок будет достигнут примерно к 2025 году. Янник Кильхер иронизирует над этой прямолинейной логикой, отмечая, что, согласно такому графику, ученым можно ничего не делать, а просто сидеть и ждать наступления 2025 года. Проблема заключается в том, что для снижения уровня ошибок до 5% потребуется совершить порядка $10^{18}$ операций с плавающей запятой (FLOPs).

🌱 Экологический след ИИ и алгоритмические инновации 7:40

Авторы исследования сопоставили рост вычислительных мощностей с эквивалентными выбросами углекислого газа (CO2). На момент публикации обзора затраты на однократное обучение передовой модели находились в диапазоне между годовым объемом выбросов одного среднестатистического жителя США и объемом, который этот житель генерирует за всю свою жизнь. Если же довести вычисления до отметки $10^{18}$ FLOPs, то затраты энергии на обучение одной-единственной модели сравняются с объемом углекислого газа, производимым всем Нью-Йорком в течение целого месяца.

Янник Кильхер высказывает серьезные сомнения относительно корректности подобных долгосрочных экстраполяций по нескольким причинам:

В качестве примера ведущий приводит появление остаточных связей (residual connections) в сетях ResNet. Это изобретение позволило резко увеличить глубину слоев без эквивалентного раздувания числа параметров и роста неэффективных вычислений. По мнению Кильхера, именно фундаментальные алгоритмические открытия открывают шлюзы для эффективного освоения новых вычислительных объемов, а не наоборот.

Сами авторы статьи в IEEE Spectrum признают, что их апокалиптический сценарий с «выжиганием энергии целых мегаполисов» вряд ли реализуется физически. Столкнувшись с астрономическими бюджетами, исследователи будут вынуждены либо искать принципиально новые методы оптимизации, либо просто забросят эти задачи, из-за чего прогресс в конкретных направлениях временно застопорится.

💰 Миллионы долларов за обучение: барьер или временные издержки? 11:13

В статье приводятся конкретные финансовые показатели разработки ИИ-систем:

Янник Кильхер предлагает взглянуть на эти многомиллионные суммы под другим углом. Во-первых, на фоне операционных расходов и зарплат сотен высококлассных инженеров, работающих над проектами, миллионы долларов на оплату серверов не выглядят катастрофическими. Во-вторых, этот этап высокой стоимости неизбежен для любой прорывной технологии на ее старте.

«Сегодня я могу запустить и дообучить модель BERT, не выходя из дома, на бесплатном сервере Google Colab или на своей домашней видеокарте. Но это стало возможным только потому, что в свое время Google вложила гигантские ресурсы, совершила кучу ошибок и нащупала работающую методику».

С точки зрения Кильхера, колоссальные стартовые затраты первопроходцев оплачивают будущую доступность технологии для всего остального рынка. Спустя несколько лет процессы оптимизируются, кастомное железо дешевеет, и затраты падают на порядки.

🛠 В поисках выхода: специализированное железо, дистилляция и метаобучение 13:25

В статье рассматриваются несколько путей преодоления вычислительного кризиса, однако авторы оценивают их скептически.

Первый путь — создание узкоспециализированных чипов под глубокое обучение. Проблема здесь кроется в неизбежном компромиссе между специализацией процессора и универсальностью его применения. Чрезмерная аппаратная заточка под текущие алгоритмы оборачивается падением доходности и фактически связывает руки исследователям, лишая их возможности внедрять принципиально новые архитектурные подходы, которые специализированный чип просто не сможет аппаратно поддержать.

Второй путь — уменьшение размера итоговых сетей (дистилляция моделей). Исследователи справедливо критикуют этот подход как средство экономии бюджетов на обучение: чтобы получить сжатую модель, разработчикам сначала всё равно приходится тратить огромные ресурсы на обучение исходной гигантской нейросети, а затем запускать повторный процесс дистилляции. Впрочем, Кильхер соглашается, что это отличный вариант для оптимизации фазы инференса (работы готовой модели на устройствах пользователей), как это происходит в случае с GPT-3.

Третий путь — метаобучение (meta-learning), в рамках которого алгоритм пытается обучить нейросеть «правильной стартовой инициализации» для широкого пула задач. Теоретически это должно резко снизить затраты на обучение под каждую конкретную доменную задачу. Однако Кильхер разделяет пессимизм авторов: на текущем этапе метаобучение хорошо работает только в академических статьях, где тестовые задачи известны авторам заранее. В реальности даже минимальный сдвиг в распределении данных между обучающей выборкой и практической задачей приводит к катастрофическому падению качества работы системы.

🔍 Парадокс репликации данных и тупик экспертных систем 15:25

Для иллюстрации хрупкости современных моделей авторы статьи ссылаются на известную работу Бенджамина Рехта из Калифорнийского университета в Беркли. Исследователи попытались максимально точно воспроизвести методику сбора исходного датасета ImageNet и создали новую независимую тестовую выборку (известную как ImageNet v2). Результат оказался тревожным: у всех протестированных классификаторов точность на новом датасете упала в среднем на 10%.

Янник Кильхер указывает на важный нюанс, который авторы статьи предпочли опустить. Существует альтернативное исследование ученых из MIT и Беркли («Выявление статистического смещения при репликации датасетов»). В нем аргументированно доказывается, что между механизмами сбора данных ImageNet v1 и v2 закралось едва заметное методологическое различие. Из-за него изображения во втором датасете объективно оказались более сложными для распознавания. Когда исследователи математически скорректировали это смещение выборки, пресловутое 10-процентное падение точности практически полностью испарилось. Таким образом, данный пример не может служить чистым доказательством концептуальной слабости обобщающей способности нейросетей.

Финальная рекомендация авторов оригинальной статьи заключается в необходимости постепенного отхода от классического глубокого обучения в сторону альтернативных, пока недооцененных методов — например, нейросимволического подхода (neurosymbolic methods). Идея состоит в том, чтобы объединить гибкость нейросетей с жесткой логикой, экспертными правилами и базами знаний, что теоретически должно быть намного эффективнее с вычислительной точки зрения.

Янник Кильхер выражает скепсис по поводу этого вечного спора в ИИ-сообществе. По его мнению, простота и вычислительная эффективность метода сами по себе не являются веской причиной для перехода на него, если итоговое качество систем остается низким.

Исторический опыт развития индустрии раз за разом доказывает «горький урок» компьютерных наук: как только любая чисто обучаемая модель получает доступ к достаточному объему данных, она начинает всухую обыгрывать системы, построенные на жестких экспертных правилах и априорных допущениях человека. Нейросимволический подход сможет стать полноценной альтернативой только тогда, когда докажет свою способность превосходить чисто емкие ИИ-модели по качеству, а не просто выступать их более дешевым и компромиссным заменителем.

💬 Цитаты

«Сегодня я могу запустить и дообувить модель BERT, не выходя из дома, на бесплатном сервере Google Colab или на своей домашней видеокарте. Но это стало возможным только потому, что в свое время Google вложила гигантские ресурсы.»

Янник Кильхер 12:31
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Избыточная параметризация
Свойство нейросетей содержать значительно больше настраиваемых параметров, чем количество обучающих примеров в датасете.
Стохастический градиентный спуск (SGD)
Базовый алгоритм оптимизации, используемый для последовательного изменения весов нейросети ради минимизации ошибок.
FLOPs
Единица измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой выполняется в секунду.
Дистилляция моделей
Процесс переноса знаний из крупной и сложной нейросети (эффективного «учителя») в меньшую и быструю («ученика»).
Нейросимволический подход
Направление в ИИ, пытающееся объединить статистическое обучение нейросетей с логическими правилами и символьными базами знаний.
📊 Цифры
🗓 Хронология
  1. 1958 Фрэнк Розенблатт конструирует первый искусственный перцептрон в Корнеллском университете.
  2. 2012 Успех архитектуры AlexNet на конкурсе ImageNet дает мощный старт современной волне Deep Learning.
  3. 2020 Выпуск модели GPT-3 и фиксация аномального скачка затрат на масштабные вычисления.
  4. 2025 Горизонт теоретической экстраполяции авторов статьи для достижения 5% ошибок распознавания ценой огромных энергозатрат.
⚖️ Другая сторона
Искусственный интеллект Deep Learning Янник Кильхер IEEE Spectrum ImageNet