# Как SambaNova Systems меняет правила игры в инференсе ИИ

Источник: https://www.youtube.com/watch?v=CDIRqxF83f8
Канал: Eye on AI
Опубликовано: 02.01.2025

---

В современном мире ИИ основная битва долгое время разворачивалась на поле обучения моделей — территории, где безраздельно властвовала NVIDIA. Однако сегодня фокус смещается в сторону инференса (исполнения моделей), и амбициозный стартап SambaNova Systems заявляет о готовности потеснить технологического гиганта, предложив кардинально иную архитектуру.

## 🚀 Прорыв в инференсе: SambaNova против NVIDIA и стартапов
[[JUMP:03:59]]

Родриго Лян, сооснователь и генеральный директор SambaNova Systems, утверждает, что компания совершила качественный скачок в производительности, представив новый сервис SambaNova Cloud. Основой этого решения стал чип RDU (Reconfigurable Dataflow Unit), который позволяет запускать сложнейшие открытые модели с рекордной скоростью [04:13].

Ключевые достижения SambaNova, озвученные в интервью:

*   **Llama 3.1 405B в полной точности:** Модель от Meta объемом 405 млрд параметров работает на скорости 132 токена в секунду. По словам Ляна, NVIDIA для достижения схожих скоростей вынуждена использовать квантование (снижение битности до 4 или 8 бит), что ведет к потере точности, но даже при этом их показатели остаются в районе 30–40 токенов в секунду [04:40].
*   **Llama 3 70B:** На версии модели с 70 млрд параметров SambaNova установила мировой рекорд — 570 токенов в секунду в полной 16-битной точности [05:19].
*   **Энергоэффективность:** Все эти результаты достигнуты в рамках одной серверной стойки (рака), потребляющей менее 10 кВт, что критически важно для масштабирования в существующих дата-центрах [05:32].

Лян подчеркивает, что по мере перехода ИИ в стадию промышленной эксплуатации расходы на инференс превысят затраты на обучение в 10 раз [05:45]. В этой новой реальности доминирование Cuda (программной экосистемы NVIDIA) перестает быть непреодолимым барьером, так как разработчики обращаются к сервисам через стандартные API [06:54].

## 🧠 Архитектура RDU: Как работает «реконфигурируемый поток данных»
[[JUMP:15:13]]

В отличие от традиционных GPU, архитектура SambaNova построена на принципе «dataflow» (поток данных). По мнению Ляна, это позволяет сократить количество необходимых чипов на порядок: там, где NVIDIA требуется 100 процессоров, SambaNova справляется примерно с десятью [10:43].

Особенности аппаратного обеспечения SambaNova:

1.  **Сложная иерархия памяти:** Чипы оснащены значительным объемом встроенной SRAM, а также используют HBM и DDR.
2.  **Гигантский объем памяти:** К системе напрямую подключено 12 терабайт оперативной памяти DDR, что позволяет держать в памяти огромные модели (до триллиона параметров) целиком и запускать их максимально эффективно [15:40].
3.  **Виртуализация:** Лян заявляет, что их софт позволяет одновременно поддерживать сотни различных «чекпоинтов» (версий моделей) на одной системе [16:07]. Это дает возможность реализовать мультиарендность (multi-tenancy), когда разные клиенты используют свои частные версии моделей на одном оборудовании без необходимости выделять отдельную стойку под каждого.

## 🏢 Стратегия выхода на рынок: От спецслужб до облаков
[[JUMP:12:17]]

Несмотря на то, что SambaNova меньше на слуху, чем Groq или Cerebras, Родриго Лян объясняет это исторической ориентацией компании на закрытый корпоративный сектор и государственные структуры. 

По утверждению гендиректора:

*   SambaNova является самым развернутым стартапом по производству ИИ-чипов в правительстве США и национальных лабораториях [12:33].
*   Компания активно работает в банковском секторе на трех континентах [12:45].
*   Крупнейший клиент в Саудовской Аравии — государственная нефтяная компания Saudi Aramco, которая использует мощности SambaNova для работы «цифрового мозга» компании, обученного на данных за последние 90 лет [08:05].

Основной фокус SambaNova долгие годы был направлен на on-premise решения (установка оборудования в дата-центры клиента). Это обусловлено тем, что 83% корпоративных данных, по оценке Ляна, хранятся внутри компаний из соображений безопасности [13:00]. SambaNova Cloud — это попытка вынести ту же эффективность в облачную среду через партнеров-провайдеров, не требуя при этом строительства новых гигаваттных центров с жидкостным охлаждением [13:53].

## 🔮 Будущее рынка: Открытый код и частные модели
[[JUMP:19:46]]

Родриго Лян строит свой прогноз развития индустрии ИИ на трех столпах:

1.  **Доминирование Open Source:** Мир идет в сторону открытых моделей (таких как Llama), которые становятся все более качественными [20:13].
2.  **Рост размеров моделей:** Пользователям нужна высокая точность и мультимодальность, что неизбежно ведет к укрупнению архитектур. SambaNova делает ставку на то, что их железо проявляет себя тем лучше, чем больше параметров у модели [19:06].
3.  **Массовая кастомизация:** В будущем каждый пользователь захочет иметь собственный «чекпоинт» модели, обученный на его личных или корпоративных данных [20:26].

На вопрос о том, почему OpenAI остается «замужем» за NVIDIA, Лян ответил, что это, вероятно, связано с историческими инвестициями и тем фактом, что GPU появились на рынке раньше [19:20]. Однако он уверен: рынок требует выбора, и критическая проблема энергопотребления заставит индустрию перейти на более эффективные решения, такие как реконфигурируемые чипы SambaNova [21:19].