Гвидо Аппенцеллер: «Капиталы ИТ-гигантов — лишь лежачий полицейский»

a16z (Andreessen Horowitz) 9,3 тыс. 15 мин 8 мин 01.09.2023
Главное

В условиях стремительного развития искусственного интеллекта стоимость вычислительных мощностей становится главным фактором успеха для ИТ-компаний. В специальном выпуске подкаста венчурного фонда a16z (Andreessen Horowitz) специальный советник Гвидо Аппенцеллер разбирает истинную экономику разработки больших языковых моделей. Эксперт анализирует математику затрат на обучение и инференс нейросетей, а также оценивает, смогут ли технологические гиганты монополизировать этот рынок за счет своих колоссальных бюджетов.

💰 Экономика ИИ-стартапов: вычислительные мощности как главный капитал 2:30

В своей статье «Навигация по высокой стоимости вычислений в сфере ИИ» специальный советник фонда a16z Гвидо Аппенцеллер отметил, что доступ к вычислительным ресурсам превратился в ключевой фактор выживания стартапов. По его наблюдениям, сегодня многие молодые компании вынуждены тратить более 80% от всего объема привлеченного капитала исключительно на оплату инфраструктуры вычислений.

С такой жесткой реальностью в первую очередь сталкиваются основатели, которые стремятся обучать собственные базовые модели с нуля. Позитивным фактором на этом этапе остается то, что подобные проекты обычно развиваются силами очень компактных и гибких команд.

По мнению Аппенцеллера, в долгосрочной перспективе эта перекошенная структура затрат должна нормализоваться. Эксперт ожидает, что стабилизация произойдет по мере перехода стартапов от создания фундаментальной технологии к развертыванию полноценного коммерческого продукта:

В результате доля инфраструктурных затрат в общем бюджете ИИ-компаний в процентном отношении начнет снижаться. При этом Аппенцеллер подчеркивает, что в абсолютных значениях расходы на чипы продолжат расти еще долгое время, так как текущий бум искусственного интеллекта находится в самом начале своего пути.

📊 Математика трансформеров: как рассчитать затраты 3:47

Как объясняет Гвидо Аппенцеллер, оценку стоимости вычислений для современных нейросетей можно существенно упростить благодаря абсолютному доминированию архитектуры трансформеров (Transformer). Эта архитектура совершила колоссальный прорыв в индустрии, доказав свою универсальность и способность к эффективному распараллеливанию вычислений.

Опираясь на свойства трансформеров, инженеры могут использовать базовые формулы для приблизительной оценки необходимых вычислительных ресурсов:

В качестве примера эксперт приводит модель GPT-3 от OpenAI, которая содержит 175 миллиардов параметров. На один цикл инференса (генерацию одного ответа на запрос пользователя) этой модели требуется затратить порядка 350 миллиардов операций с плавающей запятой. Зная эти показатели, компании могут рассчитать необходимую емкость ИИ-акселераторов, спрогнозировать масштабирование и заложить базовую экономику продукта.

Однако Аппенцеллер предупреждает, что в реальности математика вычислений оказывается значительно сложнее теоретических формул. На итоговую производительность влияет множество факторов:

Из-за жестких ограничений пропускной способности памяти и задержек при передаче данных по сети добиться стопроцентной эффективности оборудования невозможно. Именно поэтому Аппенцеллер настоятельно рекомендует стартапам проводить практические тесты перед принятием финальных инфраструктурных решений, чтобы проверить жизнеспособность своих теоретических расчетов.

🖥️ Настоящая стоимость обучения на примере GPT-3 5:54

Если применить упрощенный «расчет на салфетке» к обучению модели GPT-3, опираясь на количество параметров и объем токенов в обучающей выборке, то совокупный объем необходимых вычислений составит около $3 \times 10^{23}$ операций с плавающей запятой. По словам Аппенцеллера, это колоссальное число с 23 знаками, и человечество за всю свою историю сталкивалось лишь с единичными вычислительными задачами подобного масштаба сложности.

Для перевода этих цифр в плоскость реальных денег можно взять за основу самый популярный на рынке графический ускоритель NVIDIA A100. По оценке эксперта, стоимость аренды одной такой карты сегодня колеблется в диапазоне от 1 до 4 долларов за час в зависимости от облачного провайдера. Разделив общий объем операций на пиковую производительность чипа, при самом «наивном» расчете мы получим итоговую стоимость обучения в районе 500 тысяч долларов.

Тем не менее, Гвидо Аппенцеллер подчеркивает, что реальная рыночная стоимость обучения моделей такого класса измеряется совершенно другими суммами. На практике компании сталкиваются со следующими скрытыми факторами удорожания:

По утверждению Аппенцеллера, реальные затраты в индустрии на обучение флагманской модели составляют десятки миллионов долларов. Главный виновник такого роста бюджетов — специфика бронирования мощностей. Облачные провайдеры не позволяют арендовать тысячи карт ровно на два месяца под конкретный цикл обучения, что стоило бы около миллиона долларов. Они требуют от стартапов оформления жестких долгосрочных контрактов на резервирование емкостей сроком на один или два года. Это автоматическое обязательство добавляет к реальному чеку компании еще один ноль.

💡 Особенности инференса: пиковые нагрузки и дешевое железо 8:09

Процесс инференса (эксплуатации уже обученной модели пользователями) обходится компаниям на много порядков дешевле обучения. Если массив данных для обучения текстовой нейросети составляет около триллиона токенов, то при инференсе генерация каждого отдельного слова или символа эквивалентна расходу всего одного токена. Это делает инференс быстрее обучения примерно в триллион раз, а стоимость генерации одного ответа колеблется в районе сотых или десятых долей одного цента.

Тем не менее, инфраструктура коммерческого инференса создает свои специфические статьи расходов, о которых часто забывают:

Впрочем, для инференса некоторых типов нейросетей, особенно генераторов изображений, компании могут использовать гораздо более дешевое железо. Модели вроде популярной Stable Diffusion оптимизированы настолько хорошо, что их инференс можно запускать на серверных версиях обычных потребительских видеокарт или даже локально на персональных ноутбуках MacBook. Объема оперативной памяти и графической мощности современных потребительских чипов вполне достаточно, чтобы генерировать картинки локально, вообще не задействуя дорогостоящие серверные ускорители уровня NVIDIA A100.

При этом Аппенцеллер обращает внимание на критически важное различие: если инференс можно перенести на дешевые карты, то с обучением моделей этот трюк не сработает. Собрать суперкомпьютер для обучения из тысяч слабых потребительских чипов невозможно. Программный оверхед и задержки при распределении гигантских массивов данных между слабыми картами полностью нивелируют любую финансовую выгоду от дешевизны железа.

🔓 Капитал против инноваций: рухнет ли монополия гигантов? 10:05

Колоссальная стоимость инфраструктуры заставляет многих экспертов предполагать, что в гонке искусственного интеллекта неизбежно победят исключительно сверхкапитализированные технологические гиганты. Гвидо Аппенцеллер соглашается, что именно финансовый барьер долгое время сдерживал появление качественных open-source моделей: независимые энтузиасты просто не способны найти от 2 до 10 миллионов долларов только на оплату серверного времени.

Однако, по мнению Аппенцеллера, в обозримом будущем общая стоимость обучения моделей начнет снижаться, а финансовый барьер для новых игроков станет менее критичным. Эксперт связывает это с тем, что индустрия быстрыми темпами приближается к так называемому лимиту данных (data limitation). В ИИ существует строгая математическая зависимость между размером нейросети и оптимальным объемом информации для ее тренировки:

Современные ИИ-модели уже поглотили колоссальную часть всех доступных текстовых знаний человечества. По имеющимся оценкам, нейросети семейства GPT обучались примерно на 10% от всего содержимого глобального интернета, включая англоязычную Википедию и огромные массивы оцифрованных книг. Аппенцеллер считает, что масштабировать объем обучающих данных еще в 10 раз теоретически возможно, но увеличить его в 100 раз уже не получится физически, так как человечество просто не создало такого количества качественной текстовой информации.

Поскольку темпы прироста новых знаний на планете ограничены, а производительность вычислительных чипов продолжает расти, общие затраты на обучение ИИ упрутся в естественный потолок. Исходя из этого, Аппенцеллер делает оптимистичный вывод: защитный ров (moat), созданный огромными капиталами ИТ-гигантов, на самом деле окажется не пропастью, а лишь временным «лежачим полицейским» (speed bump) для индустрии. Сегодня создание собственной крупной языковой модели становится вполне посильной задачей для любого хорошо профинансированного стартапа, что гарантирует сохранение высокой конкуренции и непрерывный поток инноваций в будущем.

📚 Сравнение масштабов: сколько книг «прочитал» искусственный интеллект 12:58

В завершение дискуссии авторы подкаста привели наглядную фактологическую иллюстрацию масштаба данных, сгенерированную моделью GPT-4. Если бы весь объем текстовой информации, на котором обучались современные нейросети первого эшелона, был распечатан на бумаге, он бы занял стены гигантского книгохранилища.

Для калькуляции этого объема ИИ использовал следующие консервативные вводные данные:

Таким образом, массив информации, усвоенный нейросетью при обучении, эквивалентен тексту 100 тысяч книг. Чтобы осознать этот масштаб, достаточно сравнить его с крупнейшими физическими библиотеками мира. Например, совокупный фонд Нью-Йоркской публичной библиотеки включает в себя около 53 миллионов различных объектов хранения, куда входят не только книги, но и рукописи, карты и журналы. Обучающая выборка текстовой модели содержит почти в два раза больше текстового материала, чем вся эта знаменитая библиотека.

При этом современные технологические архитектуры движутся вперед еще быстрее. Как отмечают авторы подкаста, новые открытые модели, такие как Llama 2 от корпорации Meta, обучаются на массивах объемом уже в 2 триллиона токенов, что соответствует примерно 8 триллионам символов. Этот объем данных многократно превосходит масштабы любых книгохранилищ, созданных человечеством.

💬 Цитаты

«Обучение одной из таких больших языковых моделей сегодня — это не сто тысяч долларов. Практически в индустрии мы видим, что это скорее десятки миллионов долларов.»

Гвидо Аппенцеллер 01:43

«Ожидание на данный момент заключается в том, что стоимость обучения этих моделей может на самом деле достичь потолка или даже немного снизиться.»

Гвидо Аппенцеллер 12:19
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер (Transformer)
Архитектура нейронных сетей, оптимизированная для параллельных вычислений и ставшая основой для большинства современных языковых моделей.
Инференс (Inference)
Процесс работы уже обученной нейросети, когда она принимает новые данные от пользователя и генерирует ответ.
Токен (Token)
Базовая единица учета текстовой информации в ИИ, соответствующая слову, слогу или части символа.
FLOPS
Единица измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой система выполняет за одну секунду.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Гвидо Аппенцеллер a16z GPT-3 NVIDIA A100