Гвидо Аппенцеллер: «Капиталы ИТ-гигантов — лишь лежачий полицейский»

В условиях стремительного развития искусственного интеллекта стоимость вычислительных мощностей становится главным фактором успеха для ИТ-компаний. В специальном выпуске подкаста венчурного фонда a16z (Andreessen Horowitz) специальный советник Гвидо Аппенцеллер разбирает истинную экономику разработки больших языковых моделей. Эксперт анализирует математику затрат на обучение и инференс нейросетей, а также оценивает, смогут ли технологические гиганты монополизировать этот рынок за счет своих колоссальных бюджетов.

💰 Экономика ИИ-стартапов: вычислительные мощности как главный капитал 2:30

В своей статье «Навигация по высокой стоимости вычислений в сфере ИИ» специальный советник фонда a16z Гвидо Аппенцеллер отметил, что доступ к вычислительным ресурсам превратился в ключевой фактор выживания стартапов. По его наблюдениям, сегодня многие молодые компании вынуждены тратить более 80% от всего объема привлеченного капитала исключительно на оплату инфраструктуры вычислений.

С такой жесткой реальностью в первую очередь сталкиваются основатели, которые стремятся обучать собственные базовые модели с нуля. Позитивным фактором на этом этапе остается то, что подобные проекты обычно развиваются силами очень компактных и гибких команд.

По мнению Аппенцеллера, в долгосрочной перспективе эта перекошенная структура затрат должна нормализоваться. Эксперт ожидает, что стабилизация произойдет по мере перехода стартапов от создания фундаментальной технологии к развертыванию полноценного коммерческого продукта:

Компании начнут внедрять административные функции и интерфейсы корпоративного уровня.
Существенная часть фокуса сместится на классическое программирование, не связанное с ИИ.
Стартапам неизбежно придется расширять штат сотрудников и увеличивать расходы на оплату труда.

В результате доля инфраструктурных затрат в общем бюджете ИИ-компаний в процентном отношении начнет снижаться. При этом Аппенцеллер подчеркивает, что в абсолютных значениях расходы на чипы продолжат расти еще долгое время, так как текущий бум искусственного интеллекта находится в самом начале своего пути.

📊 Математика трансформеров: как рассчитать затраты 3:47

Как объясняет Гвидо Аппенцеллер, оценку стоимости вычислений для современных нейросетей можно существенно упростить благодаря абсолютному доминированию архитектуры трансформеров (Transformer). Эта архитектура совершила колоссальный прорыв в индустрии, доказав свою универсальность и способность к эффективному распараллеливанию вычислений.

Опираясь на свойства трансформеров, инженеры могут использовать базовые формулы для приблизительной оценки необходимых вычислительных ресурсов:

Теоретическое время инференса (вывода) эквивалентно удвоенному количеству параметров модели, выраженному в операциях с плавающей запятой (FLOPS).
Теоретическое время обучения модели требует объема вычислений, примерно равного количеству параметров, умноженному на шесть.

В качестве примера эксперт приводит модель GPT-3 от OpenAI, которая содержит 175 миллиардов параметров. На один цикл инференса (генерацию одного ответа на запрос пользователя) этой модели требуется затратить порядка 350 миллиардов операций с плавающей запятой. Зная эти показатели, компании могут рассчитать необходимую емкость ИИ-акселераторов, спрогнозировать масштабирование и заложить базовую экономику продукта.

Однако Аппенцеллер предупреждает, что в реальности математика вычислений оказывается значительно сложнее теоретических формул. На итоговую производительность влияет множество факторов:

Использование пониженной точности вычислений (reduced precision) позволяет ускорить процессы.
При наивной базовой реализации реальная утилизация мощностей видеокарт часто падает ниже 10%.
Даже после серьезной оптимизации инженерам удается довести загрузку ускорителей лишь до десятков процентов от их пиковой мощности.

Из-за жестких ограничений пропускной способности памяти и задержек при передаче данных по сети добиться стопроцентной эффективности оборудования невозможно. Именно поэтому Аппенцеллер настоятельно рекомендует стартапам проводить практические тесты перед принятием финальных инфраструктурных решений, чтобы проверить жизнеспособность своих теоретических расчетов.

🖥️ Настоящая стоимость обучения на примере GPT-3 5:54

Если применить упрощенный «расчет на салфетке» к обучению модели GPT-3, опираясь на количество параметров и объем токенов в обучающей выборке, то совокупный объем необходимых вычислений составит около $3 \times 10^{23}$ операций с плавающей запятой. По словам Аппенцеллера, это колоссальное число с 23 знаками, и человечество за всю свою историю сталкивалось лишь с единичными вычислительными задачами подобного масштаба сложности.

Для перевода этих цифр в плоскость реальных денег можно взять за основу самый популярный на рынке графический ускоритель NVIDIA A100. По оценке эксперта, стоимость аренды одной такой карты сегодня колеблется в диапазоне от 1 до 4 долларов за час в зависимости от облачного провайдера. Разделив общий объем операций на пиковую производительность чипа, при самом «наивном» расчете мы получим итоговую стоимость обучения в районе 500 тысяч долларов.

Тем не менее, Гвидо Аппенцеллер подчеркивает, что реальная рыночная стоимость обучения моделей такого класса измеряется совершенно другими суммами. На практике компании сталкиваются со следующими скрытыми факторами удорожания:

Неизбежные потери из-за ограничений пропускной способности памяти и сетевых стыков между серверами.
Необходимость проведения десятков предварительных тестовых запусков на меньших объемах данных.
Тот факт, что ни одну крупную модель невозможно успешно обучить с первой же попытки.

По утверждению Аппенцеллера, реальные затраты в индустрии на обучение флагманской модели составляют десятки миллионов долларов. Главный виновник такого роста бюджетов — специфика бронирования мощностей. Облачные провайдеры не позволяют арендовать тысячи карт ровно на два месяца под конкретный цикл обучения, что стоило бы около миллиона долларов. Они требуют от стартапов оформления жестких долгосрочных контрактов на резервирование емкостей сроком на один или два года. Это автоматическое обязательство добавляет к реальному чеку компании еще один ноль.

💡 Особенности инференса: пиковые нагрузки и дешевое железо 8:09

Процесс инференса (эксплуатации уже обученной модели пользователями) обходится компаниям на много порядков дешевле обучения. Если массив данных для обучения текстовой нейросети составляет около триллиона токенов, то при инференсе генерация каждого отдельного слова или символа эквивалентна расходу всего одного токена. Это делает инференс быстрее обучения примерно в триллион раз, а стоимость генерации одного ответа колеблется в районе сотых или десятых долей одного цента.

Тем не менее, инфраструктура коммерческого инференса создает свои специфические статьи расходов, о которых часто забывают:

Необходимость закладывать избыточные мощности под пиковые периоды (например, в 9 часов утра в понедельник, когда сервисом пользуются все).
Вынужденная оплата простоя серверов в периоды минимального спроса (например, в полночь субботы), когда оборудование продолжает генерировать операционные расходы.

Впрочем, для инференса некоторых типов нейросетей, особенно генераторов изображений, компании могут использовать гораздо более дешевое железо. Модели вроде популярной Stable Diffusion оптимизированы настолько хорошо, что их инференс можно запускать на серверных версиях обычных потребительских видеокарт или даже локально на персональных ноутбуках MacBook. Объема оперативной памяти и графической мощности современных потребительских чипов вполне достаточно, чтобы генерировать картинки локально, вообще не задействуя дорогостоящие серверные ускорители уровня NVIDIA A100.

При этом Аппенцеллер обращает внимание на критически важное различие: если инференс можно перенести на дешевые карты, то с обучением моделей этот трюк не сработает. Собрать суперкомпьютер для обучения из тысяч слабых потребительских чипов невозможно. Программный оверхед и задержки при распределении гигантских массивов данных между слабыми картами полностью нивелируют любую финансовую выгоду от дешевизны железа.

🔓 Капитал против инноваций: рухнет ли монополия гигантов? 10:05

Колоссальная стоимость инфраструктуры заставляет многих экспертов предполагать, что в гонке искусственного интеллекта неизбежно победят исключительно сверхкапитализированные технологические гиганты. Гвидо Аппенцеллер соглашается, что именно финансовый барьер долгое время сдерживал появление качественных open-source моделей: независимые энтузиасты просто не способны найти от 2 до 10 миллионов долларов только на оплату серверного времени.

Однако, по мнению Аппенцеллера, в обозримом будущем общая стоимость обучения моделей начнет снижаться, а финансовый барьер для новых игроков станет менее критичным. Эксперт связывает это с тем, что индустрия быстрыми темпами приближается к так называемому лимиту данных (data limitation). В ИИ существует строгая математическая зависимость между размером нейросети и оптимальным объемом информации для ее тренировки:

Создание огромной модели при нехватке данных бессмысленно — это как дать человеку огромный мозг, но ограничить его образование начальной школой.
Попытка загрузить терабайты данных в слишком маленькую модель также не принесет качественного прорыва.

Современные ИИ-модели уже поглотили колоссальную часть всех доступных текстовых знаний человечества. По имеющимся оценкам, нейросети семейства GPT обучались примерно на 10% от всего содержимого глобального интернета, включая англоязычную Википедию и огромные массивы оцифрованных книг. Аппенцеллер считает, что масштабировать объем обучающих данных еще в 10 раз теоретически возможно, но увеличить его в 100 раз уже не получится физически, так как человечество просто не создало такого количества качественной текстовой информации.

Поскольку темпы прироста новых знаний на планете ограничены, а производительность вычислительных чипов продолжает расти, общие затраты на обучение ИИ упрутся в естественный потолок. Исходя из этого, Аппенцеллер делает оптимистичный вывод: защитный ров (moat), созданный огромными капиталами ИТ-гигантов, на самом деле окажется не пропастью, а лишь временным «лежачим полицейским» (speed bump) для индустрии. Сегодня создание собственной крупной языковой модели становится вполне посильной задачей для любого хорошо профинансированного стартапа, что гарантирует сохранение высокой конкуренции и непрерывный поток инноваций в будущем.

📚 Сравнение масштабов: сколько книг «прочитал» искусственный интеллект 12:58

В завершение дискуссии авторы подкаста привели наглядную фактологическую иллюстрацию масштаба данных, сгенерированную моделью GPT-4. Если бы весь объем текстовой информации, на котором обучались современные нейросети первого эшелона, был распечатан на бумаге, он бы занял стены гигантского книгохранилища.

Для калькуляции этого объема ИИ использовал следующие консервативные вводные данные:

Одна стандартная художественная или научная книга содержит в среднем около 1 миллиона символов.
Объем текстовой выборки для обучения базовой модели оценивается примерно в 100 гигабайт чистого текста.
Поскольку один текстовый символ кодируется примерно одним байтом памяти, этот объем эквивалентен 100 миллиардам символов.

Таким образом, массив информации, усвоенный нейросетью при обучении, эквивалентен тексту 100 тысяч книг. Чтобы осознать этот масштаб, достаточно сравнить его с крупнейшими физическими библиотеками мира. Например, совокупный фонд Нью-Йоркской публичной библиотеки включает в себя около 53 миллионов различных объектов хранения, куда входят не только книги, но и рукописи, карты и журналы. Обучающая выборка текстовой модели содержит почти в два раза больше текстового материала, чем вся эта знаменитая библиотека.

При этом современные технологические архитектуры движутся вперед еще быстрее. Как отмечают авторы подкаста, новые открытые модели, такие как Llama 2 от корпорации Meta, обучаются на массивах объемом уже в 2 триллиона токенов, что соответствует примерно 8 триллионам символов. Этот объем данных многократно превосходит масштабы любых книгохранилищ, созданных человечеством.