Эндрю Фелдман о чипах NVIDIA: «Это попытка модифицировать Camry с помощью маркетинга»

В новом выпуске подкаста Eye on AI его ведущий Крейг Смит побеседовал с Эндрю Фелдманом, сооснователем и генеральным директором компании Cerebras Systems. В центре обсуждения оказалась уникальная технологическая концепция компании — создание гигантских монолитных кремниевых чипов размером с обеденную тарелку, разработанных специально для задач искусственного интеллекта. Собеседники подробно разобрали архитектурные тупики современных графических процессоров (GPU), ограничения решений от технологических гигантов и перспективы создания вычислительных кластеров, сопоставимых по мощности с человеческим мозгом.

🎛️ Революция пластин: почему ИИ перерос традиционные чипы 1:02

Компания Cerebras Systems была основана зимой 2016 года в Кремниевой долине. Как вспоминает Эндрю Фелдман, команда изначально ставила перед собой амбициозную цель: ускорить вычисления в сфере искусственного интеллекта не в два или десять раз, а сразу на три порядка — в 1000 раз. Подобный технологический скачок должен был открыть принципиально новые возможности для специалистов по машинному обучению и оказать глубокое влияние на все общество.

Традиционные вычислительные платформы оказались плохо приспособлены к специфике ИИ. По словам Фелдмана, алгоритмы машинного обучения обладают уникальной природой, состоящей из двух ключевых элементов:

Огромного количества мелких вычислений.
Колоссального объема коммуникаций между элементами, обусловленного постоянным циклом обратной связи.

В стандартной архитектуре постоянное перемещение результатов вычислений становится главным «узким горлышком». Cerebras решила эту проблему радикально: вместо того чтобы разделять вычислительные мощности на множество мелких кристаллов, они оставили всю рабочую структуру на одной гигантской кремниевой пластине. Создание сверхбольшого чипа считалось неразрешимой задачей на протяжении 70-летней истории полупроводниковой индустрии, однако компании удалось совершить прорыв.

Монолитная архитектура позволяет удерживать все вычислительные ядра и ресурсы памяти в едином сверхбыстром домене. Фелдман отмечает, что это обеспечивает высочайшую пропускную способность и экстремально низкое энергопотребление. Если же разбивать систему на мелкие части и соединять их через традиционные сетевые интерфейсы, скорость работы неизбежно падает.

В августе 2019 года Cerebras официально объявила о создании крупнейшего чипа в истории. Их производственный партнер — тайваньская TSMC (Taiwan Semiconductor Manufacturing Company) — был настолько впечатлен результатами сотрудничества, что посвятил этому проекту отдельную экспозицию в своем Музее инноваций в Тайбэе. В апреле 2021 года компания представила уже второе поколение своих процессоров, совершив переход с 16-нанометрового техпроцесса сразу на 7-нанометровый, минуя стадию 10 нм.

🚗 Автомобильная метафора: чем GPU и CPU отличаются от специализированных чипов 5:12

Для объяснения сложных хардверных концепций Эндрю Фелдман использует наглядную аналогию с автомобильным рынком. Разные типы процессоров создаются под строго определенные задачи, и универсального решения здесь существовать не может:

Минивэн идеально подходит для поездок большой семьей на пикник или доставки детей в секцию, но на нем крайне неудобно перевозить мешки с цементом весом по 20 килограммов.
Двухместный родстер создан для быстрого и веселого вождения по выходным, но в него поместятся разве что водитель, пассажир и сумка с клюшками для гольфа.
Пикап (например, Ford F-150) незаменим для перевозки кирпичей и мусора, но совершенно не подходит для комфортных семейных путешествий.

В этой классификации графический процессор (GPU) — это чистокровный двухместный родстер. На протяжении двадцати лет каждая итерация GPU оптимизировалась исключительно под одну задачу: максимально быстро передавать пиксели с компьютера на монитор. Центральный процессор (CPU) Фелдман сравнивает с Toyota Camry. Это максимально универсальная машина, которая одинаково неплохо справляется с самыми разными задачами — от работы в Excel до поддержки легких баз данных.

Когда индустрия столкнулась со специфическими нагрузками искусственного интеллекта, ни CPU, ни GPU не были к ним готовы. Однако графические чипы оказались «менее плохими» в этой роли. Фелдман приводит в пример шутку о двух туристах, убегающих от медведя: чтобы выжить, тебе не нужно бежать быстрее медведя, достаточно бежать быстрее своего друга. GPU смог обогнать CPU на ИИ-задачах, что позволило производителям графических плат построить на этом огромный бизнес. Тем не менее базово эта архитектура оставалась заточенной под графику, а ее дешевизна обуславливалась лишь огромными объемами массового игрового рынка.

Попытки создать гибридное универсальное решение глава Cerebras сравнивает с автомобилем El Camino — гибридом легковой машины и пикапа. По его мнению, это была ужасная катастрофа: на ней неудобно возить грузы, но при этом она оставалась некрасивой и некомфортной для пассажиров. Именно такая опасность, считает Фелдман, грозит чипмейкерам, которые пытаются быть всем для всех.

⚔️ Противостояние архитектур: Cerebras против NVIDIA и Google TPU 10:52

Комментируя заявления лидера рынка ИИ-чипов, компании NVIDIA, об их переориентации на специализированные решения для искусственного интеллекта, Фелдман призывает смотреть на факты, а не на маркетинг. Он указывает, что NVIDIA до сих пор отказывается удалять из своих архитектур логику двойной точности (64-bit double precision), которая абсолютно бесполезна для нейросетей. Кроме того, на их кремнии остаются блоки растеризации, шейдеры и другие элементы игровых видеокарт.

По мнению Фелдмана, NVIDIA вынуждена сохранять эти компоненты, поскольку пытается усидеть на нескольких стульях сразу, собирая выручку с игрового рынка, майнинга криптовалют, высокопроизводительных вычислений (HPC) и ИИ. По-настоящему серьезный подход к ИИ начнется только тогда, когда они полностью вырежут эти блоки, сделав чипы непригодными для видеоигр. Пока этого не произошло, их попытки выдать универсальный чип за специализированный остаются лишь «модификацией Camry с помощью хорошего маркетинга».

Альтернативный путь выбрала Google со своими процессорами TPU. Разработчики Google создавали чип с чистого листа, выбрав архитектуру систолического массива (systolic array), известную в научной литературе с середины 1980-х годов. Эта структура идеально оптимизирована под умножение больших плотных матриц.

Однако Cerebras видит фундаментальный недостаток такого подхода. По словам Фелдмана, в основе нейросетей лежит не плотная, а разреженная алгебра (sparse algebra). Google фактически заставила своих внутренних исследователей подстраивать архитектуру нейросетей под возможности TPU, чтобы они оперировали именно большими плотными матрицами. Но внешняя индустрия развивается иначе: например, модели от OpenAI (такие как GPT-3) создаются без оглядки на ограничения Google и не оптимизированы под систолические массивы. Подход Cerebras, напротив, изначально учитывает разреженность данных на аппаратном уровне.

🐳 Гигантомания в кремнии: технические характеристики чипа размером с тарелку 2:34

Масштабы технологического решения Cerebras наглядно иллюстрируются сравнением их флагманского чипа второго поколения с продуктами конкурентов:

Количество транзисторов: Чип Cerebras содержит 2,6 триллиона транзисторов, в то время как у ближайшего конкурента этот показатель составляет всего 54 миллиарда. Разница — более чем в 50 раз.
Физический размер: Процессор Cerebras имеет размер большой обеденной тарелки, тогда как стандартный топовый чип конкурентов не превышает размеров почтовой марки.
Количество ядер: На одной пластине расположено 850 000 независимых вычислительных ядер.

Помимо превосходства в количестве ядер, чип обладает в тысячи раз большим объемом встроенной памяти, в десятки тысяч раз большей пропускной способностью памяти и более чем в 40 000 раз более быстрой системой межъядерных коммуникаций по сравнению с традиционными GPU. По заявлению Фелдмана, такие характеристики позволяют сократить время выполнения сложнейших задач обучения ИИ с нескольких месяцев до минут, а с недель — до считанных секунд.

Cerebras поставляет заказчикам не отдельные кристаллы, а готовые программно-аппаратные комплексы. Фелдман поясняет это тем, что «нельзя собрать двигатель Ferrari, поставить его в Volkswagen и рассчитывать на победу в гонках». В ИИ-вычислениях при замене одного компонента узкое горлышко просто сместится на топливную систему или трансмиссию. Проектирование системы требует комплексного подхода, подобно тому, как в Porsche 911 каждый элемент кузова и подвески разрабатывается с учетом того, что двигатель находится за задней осью. К слову, именно понимание этой проблемы в конечном итоге вынудило NVIDIA тоже заняться системным бизнесом и выпустить линейку серверов DGX.

🧠 Масштаб человеческого мозга: от GPT-3 к 120 триллионам параметров 13:02

Одной из главных тем обсуждения стали сверхбольшие языковые модели. По оценкам, прозвучавшим в подкасте, обучение знаменитой модели GPT-3 от OpenAI (содержащей около 170 миллиардов параметров) потребовало колоссальных ресурсов: кластера из более чем 1000 графических процессоров, мощностей порядка нескольких мегаватт и около четырех месяцев непрерывной работы. Подобные проекты на тот момент могли позволить себе лишь единицы — фактически, только альянс OpenAI и Microsoft Azure.

Фелдман утверждает, что технологии Cerebras позволяют радикально демократизировать этот процесс. Благодаря недавним архитектурным анонсам компании, обучение масштаба GPT-3 теперь можно развернуть всего на нескольких системах Cerebras, затратив на весь процесс около недели, а первоначальное конфигурирование кластера займет всего один час вместо месяцев ручной настройки.

Более того, Cerebras заявляет о готовности к переходу на новый масштаб вычислений — уровень человеческого мозга. Единичная система компании способна поддерживать работу моделей объемом до 120 триллионов параметров, что почти в тысячу раз превышает размер GPT-3. Для реализации этой концепции, получившей название "Brain-Scale Integration", инженерам Cerebras пришлось изобрести три принципиально новые технологии:

MemoryX: Специализированная технологическая архитектура, позволяющая хранить веса огромных нейросетей за пределами кристалла, но доставлять их на вычислительные ядра с такой скоростью, словно они находятся прямо на чипе.
SwarmX: Коммуникационная фабрика, расширяющая внутреннюю сеть чипа вовне. Она позволяет объединять в единый кластер до 192 систем Cerebras, создавая общую вычислительную сеть из 163 миллионов ядер.
Streaming Weights: Программный стек, автоматизирующий управление этой гигантской инфраструктурой и позволяющий конфигурировать сложнейшие кластеры буквально с помощью нескольких нажатий клавиш.

🏢 Практическое применение: суперкомпьютеры и облачный доступ 18:14

Традиционные суперкомпьютеры создаются для симуляций физических процессов и исторически полагаются на вычисления с двойной точностью (64-bit), где Cerebras не конкурирует. Однако сегодня в таких симуляциях все чаще используются ИИ-модели для ускорения расчетов. Например, система первого поколения Cerebras CS-1 успешно интегрирована в состав Lassen — восьмого по мощности суперкомпьютера в мире, работающего в Ливерморской национальной лаборатории имени Лоуренса (LLNL).

Среди других подтвержденных кейсов использования оборудования Cerebras:

Аргоннская национальная лаборатория: Исследования в области онкологии (поиск паттернов взаимодействия лекарств) и изучение структуры COVID-19.
Стэнфордский линейный ускоритель (SLAC): Обработка и анализ огромных потоков экспериментальных данных в режиме реального времени.
Питтсбургский суперкомпьютерный центр: Развертывание исследовательского облака на базе кластера машин Cerebras и инфраструктуры HPE Superdome Flex для десятков научных команд.

Гибкость чипа позволяет использовать его по-разному. Клиенты могут запускать до четырех разных моделей на одной пластине одновременно или масштабировать одну задачу на весь кристалл. Один из заказчиков использует пластину для параллельного запуска четырех разных ИИ-моделей на одном потоке входящих данных, чтобы оценивать степень неопределенности: если четыре независимых алгоритма выдают одинаковый результат классификации, точность распознавания считается максимальной.

Для коммерческого рынка Cerebras предлагает различные модели доступа к своим мощностям: покупку оборудования, классическую подписку или аренду через специализированного облачного партнера Cirrascale. Кластерная архитектура Brain-Scale станет доступна для коммерческого использования в четвертом квартале. Фелдман подчеркивает, что это не просто пиар-акция: у компании уже сформировалась очередь из клиентов, которым не хватает стандартных серверных мощностей.

🔮 Скепсис вокруг квантовых вычислений и тупики AGI 25:08

В ходе беседы Крейг Смит затронул тему квантовых компьютеров, упомянув амбициозные планы IBM представить стабильный 1000-кубитный процессор к 2025 году, а также разработки китайской компании Baidu в области квантовых алгоритмов для машинного обучения. Эндрю Фелдман высказал весьма скептическую позицию относительно близости квантовой революции.

По мнению Фелдмана, квантовые технологии — это крайне интересное направление, в которое общество обязано инвестировать научные гранты, однако коммерческие системы общего назначения появятся не ранее чем через 10–20 лет. На текущем этапе все квантовые процессоры остаются штучными, нестабильными и «топорными» (kludgy) с точки зрения софта. Глава Cerebras призывает критически оценивать заявления крупных корпораций, намекая на историю с проектом IBM Watson, чьи громкие обещания так и не оправдались в полной мере.

Фелдман указывает на непреодолимые на сегодня инфраструктурные и физические ограничения квантового стека:

Энергопотребление: Квантовая машина требует охлаждения до температур около 4 Кельвинов (близко к абсолютному нулю), что само по себе сжигает десятки мегаватт электроэнергии.
Проблема задержек (latency): Даже если квантовый алгоритм выполнит классификацию мгновенно, физическая доставка данных до криогенной установки и извлечение результата обратно на классический компьютер займет гораздо больше времени, чем классическое вычисление. В итоге весь выигрыш в скорости нивелируется задержками при транспортировке информации.

Столь же приземленно Фелдман оценивает и дискуссию вокруг создания сильного искусственного общего интеллекта (AGI) и обретения машинами сознания. По его мнению, человечество все еще находится бесконечно далеко от создания мыслящих систем. OpenAI и другие команды могут выступать визионерами на уровне алгоритмов, но задача Cerebras — строить для них «дороги», раздвигая физические лимиты железа. Фелдмана не пугают сценарии из поп-культуры (он с иронией вспомнил недавний эпизод мультсериала «Арчер», где взбунтовавшаяся ИИ-система вентиляции называлась Cerebras). Куда более захватывающей он считает возможность решать фундаментальные задачи поиска скрытых паттернов в огромных массивах данных, с которыми человеческий мозг за сотни тысяч лет своей эволюции никогда не умел справляться эффективно.