Как SambaNova Systems меняет правила игры в инференсе ИИ

В современном мире ИИ основная битва долгое время разворачивалась на поле обучения моделей — территории, где безраздельно властвовала NVIDIA. Однако сегодня фокус смещается в сторону инференса (исполнения моделей), и амбициозный стартап SambaNova Systems заявляет о готовности потеснить технологического гиганта, предложив кардинально иную архитектуру.

🚀 Прорыв в инференсе: SambaNova против NVIDIA и стартапов 3:59

Родриго Лян, сооснователь и генеральный директор SambaNova Systems, утверждает, что компания совершила качественный скачок в производительности, представив новый сервис SambaNova Cloud. Основой этого решения стал чип RDU (Reconfigurable Dataflow Unit), который позволяет запускать сложнейшие открытые модели с рекордной скоростью .

Ключевые достижения SambaNova, озвученные в интервью:

Llama 3.1 405B в полной точности: Модель от Meta объемом 405 млрд параметров работает на скорости 132 токена в секунду. По словам Ляна, NVIDIA для достижения схожих скоростей вынуждена использовать квантование (снижение битности до 4 или 8 бит), что ведет к потере точности, но даже при этом их показатели остаются в районе 30–40 токенов в секунду .
Llama 3 70B: На версии модели с 70 млрд параметров SambaNova установила мировой рекорд — 570 токенов в секунду в полной 16-битной точности .
Энергоэффективность: Все эти результаты достигнуты в рамках одной серверной стойки (рака), потребляющей менее 10 кВт, что критически важно для масштабирования в существующих дата-центрах .

Лян подчеркивает, что по мере перехода ИИ в стадию промышленной эксплуатации расходы на инференс превысят затраты на обучение в 10 раз . В этой новой реальности доминирование Cuda (программной экосистемы NVIDIA) перестает быть непреодолимым барьером, так как разработчики обращаются к сервисам через стандартные API .

🧠 Архитектура RDU: Как работает «реконфигурируемый поток данных» 15:13

В отличие от традиционных GPU, архитектура SambaNova построена на принципе «dataflow» (поток данных). По мнению Ляна, это позволяет сократить количество необходимых чипов на порядок: там, где NVIDIA требуется 100 процессоров, SambaNova справляется примерно с десятью .

Особенности аппаратного обеспечения SambaNova:

Сложная иерархия памяти: Чипы оснащены значительным объемом встроенной SRAM, а также используют HBM и DDR.
Гигантский объем памяти: К системе напрямую подключено 12 терабайт оперативной памяти DDR, что позволяет держать в памяти огромные модели (до триллиона параметров) целиком и запускать их максимально эффективно .
Виртуализация: Лян заявляет, что их софт позволяет одновременно поддерживать сотни различных «чекпоинтов» (версий моделей) на одной системе . Это дает возможность реализовать мультиарендность (multi-tenancy), когда разные клиенты используют свои частные версии моделей на одном оборудовании без необходимости выделять отдельную стойку под каждого.

🏢 Стратегия выхода на рынок: От спецслужб до облаков 12:17

Несмотря на то, что SambaNova меньше на слуху, чем Groq или Cerebras, Родриго Лян объясняет это исторической ориентацией компании на закрытый корпоративный сектор и государственные структуры.

По утверждению гендиректора:

SambaNova является самым развернутым стартапом по производству ИИ-чипов в правительстве США и национальных лабораториях .
Компания активно работает в банковском секторе на трех континентах .
Крупнейший клиент в Саудовской Аравии — государственная нефтяная компания Saudi Aramco, которая использует мощности SambaNova для работы «цифрового мозга» компании, обученного на данных за последние 90 лет .

Основной фокус SambaNova долгие годы был направлен на on-premise решения (установка оборудования в дата-центры клиента). Это обусловлено тем, что 83% корпоративных данных, по оценке Ляна, хранятся внутри компаний из соображений безопасности . SambaNova Cloud — это попытка вынести ту же эффективность в облачную среду через партнеров-провайдеров, не требуя при этом строительства новых гигаваттных центров с жидкостным охлаждением .

🔮 Будущее рынка: Открытый код и частные модели 19:46

Родриго Лян строит свой прогноз развития индустрии ИИ на трех столпах:

Доминирование Open Source: Мир идет в сторону открытых моделей (таких как Llama), которые становятся все более качественными .
Рост размеров моделей: Пользователям нужна высокая точность и мультимодальность, что неизбежно ведет к укрупнению архитектур. SambaNova делает ставку на то, что их железо проявляет себя тем лучше, чем больше параметров у модели .
Массовая кастомизация: В будущем каждый пользователь захочет иметь собственный «чекпоинт» модели, обученный на его личных или корпоративных данных .

На вопрос о том, почему OpenAI остается «замужем» за NVIDIA, Лян ответил, что это, вероятно, связано с историческими инвестициями и тем фактом, что GPU появились на рынке раньше . Однако он уверен: рынок требует выбора, и критическая проблема энергопотребления заставит индустрию перейти на более эффективные решения, такие как реконфигурируемые чипы SambaNova .