Рынок искусственного интеллекта столкнулся с парадоксальной ситуацией: при колоссальном дефиците вычислительных мощностей реальная эффективность использования уже закупленных графических процессоров (GPU) остается крайне низкой. В новом выпуске подкаста «Eye on AI» Крейг Смит обсуждает с Роненом Даром, сооснователем и техническим директором компании Run:ai, как программная оптимизация и умное планирование могут удвоить производительность существующих кластеров и почему в эпоху LLM инфраструктурный слой становится важнее самих алгоритмов.
🧠 Путь от теории информации к архитектуре GPU-кластеров 3:59
Ронен Дар, технический директор Run:ai, обладает фундаментальной академической базой: он получил степени магистра и доктора наук (PhD) в Тель-Авивском университете, специализируясь на теории информации . Пройдя постдокторантуру в США и поработав в таких гигантах, как Intel, Дар объединил глубокие знания в области проектирования чипов с пониманием софтверных процессов.
В 2018 году вместе с партнером Омри Геллером он основал Run:ai. По словам гостя, ключевым решением было сфокусироваться именно на инфраструктурном слое AI. На тот момент в индустрии еще велись споры о возможной «зиме искусственного интеллекта», однако основатели стартапа разглядели тренд: для обучения нейросетей требуется экспоненциально растущее количество вычислительных мощностей, а существующая архитектура дата-центров, заточенная под CPU, не справляется с динамическими нагрузками GPU .
🏗️ Проблематика GPU: Почему традиционные облака неэффективны 8:49
Основная проблема современных дата-центров, по мнению Ронена Дара, заключается в том, что стек программного обеспечения для облаков (Kubernetes, контейнеризация) изначально создавался для микросервисов и центральных процессоров (CPU). GPU — это «совсем другой зверь» :
- Стоимость и дефицит: Графические процессоры на порядки дороже и сложнее в получении, чем CPU.
- Интенсивность вычислений: AI-задачи потребляют ресурсы неравномерно, часто простаивая во время подготовки данных и перегружая систему в моменты обучения.
- Статичное распределение: В традиционных системах GPU часто закрепляется за одним исследователем «целиком», даже если его задача требует лишь 10% мощности чипа. Это приводит к тому, что дорогостоящее оборудование простаивает, пока другие команды ждут своей очереди в списке ожидания .
Технология Run:ai предлагает решение в виде движка, работающего внутри Kubernetes, который позволяет «фракционировать» (дробить) GPU и внедрять продвинутые алгоритмы планирования. Ронен Дар утверждает, что после внедрения их платформы клиенты наблюдают рост утилизации мощностей в 2–3 раза .
⚙️ Виртуализация на уровне API и динамическое планирование 21:53
Одной из самых сложных инженерных задач является масштабирование моделей за пределы 70 миллиардов параметров. По оценкам экспертов, упомянутых в беседе, до этого порога исследователь может справиться самостоятельно, но выше начинаются проблемы с сетевыми задержками и падением утилизации .
Run:ai решает это через два ключевых механизма:
- Планирование (Scheduling): Система в реальном времени распределяет ресурсы между задачами разного приоритета. Если исследователь просто открыл Jupyter Notebook для экспериментов, ему выделяется лишь малая часть чипа. Как только запускается массивное обучение на тысячи GPU, система автоматически освобождает и перераспределяет мощности .
- Виртуализация на уровне CUDA: Run:ai перехватывает вызовы на уровне API (CUDA-интерцепция). Это позволяет нескольким рабочим нагрузкам одновременно использовать один физический процессор, обеспечивая при этом изоляцию памяти . Это критически важно для инференса (вывода) моделей, где запросы могут быть короткими и редкими.
📉 Революция LLM и стоимость инференса 29:50
С появлением больших языковых моделей (LLM) акцент сместился с обучения на эксплуатацию (инференс). Стоимость работы ChatGPT или аналогичных сервисов колоссальна из-за высоких требований к памяти. Ронен Дар приводит пример: для модели Llama 2 с 7 млрд параметров требуется около 14 ГБ памяти GPU . Современные чипы, такие как NVIDIA H100, имеют 80 ГБ памяти. Без умной виртуализации на таком чипе работала бы одна модель, занимая 20% ресурса. Run:ai позволяет запустить до десяти таких моделей на одном процессоре, что дает десятикратное снижение затрат .
Гость также выделил проблему автоскейлинга (автоматического масштабирования):
- В обычных веб-сервисах запуск новой копии приложения на CPU занимает секунды.
- В случае с LLM «вес» модели может превышать 100 ГБ . Одно только скачивание весов на новый сервер занимает минуты.
- Run:ai работает над ускорением этого процесса, чтобы компании могли динамически наращивать количество реплик модели в зависимости от наплыва пользователей, не держа GPU постоянно включенными «вхолостую» .
🌍 Геополитика, дефицит и NVIDIA 49:45
Обсуждая текущий дефицит чипов, Ронен Дар отметил, что спрос на вычислительные мощности вырос в 100 миллионов раз за последние 10 лет . Это создало ситуацию, когда даже крупнейшие корпорации не могут получить доступ к GPU «по требованию» в облаке — время ожидания может составлять дни .
Ключевые факты о рынке:
- Смена модели потребления: Компании перестали полагаться на on-demand доступ и начали массово резервировать блоки GPU на длительный срок.
- Доминирование NVIDIA: По разным оценкам, компания контролирует от 87% до 95% рынка .
- Масштабы инвестиций: Марк Цукерберг недавно объявил о закупке 350 тысяч чипов H100, что оценивается более чем в $10 млрд . Столько же OpenAI потратила на всю свою инфраструктуру за последние два года .
Ронен Дар выразил уверенность, что даже при появлении сильных конкурентов, таких как Cerebras с их технологией «чип на целую пластину» (wafer-scale), рынок настолько огромен, что места хватит всем. Однако NVIDIA остается фаворитом благодаря программному стеку CUDA, разработку которого они начали еще в 2007 году, предвосхитив нужды рынка за пять лет до бума глубокого обучения .
🔋 Экологический след и будущее инфраструктуры 1:05:30
На вопрос ведущего о растущем энергопотреблении дата-центров и углеродном следе, Ронен Дар ответил с долей пессимизма: по соображениям гостя, потребление энергии будет только расти . Несмотря на усилия по повышению эффективности, аппетиты AI-компаний к вычислениям увеличиваются быстрее, чем внедряются «зеленые» технологии. В шутку собеседники обсудили даже возможность выноса дата-центров на Луну, чтобы справиться с тепловыделением и энергозатратами на Земле .
В краткосрочной перспективе именно такие решения, как Run:ai, являются наиболее реалистичным способом сдерживания энергопотребления. Увеличивая утилизацию существующих чипов вдвое, компания фактически избавляет индустрию от необходимости производить и питать в два раза больше оборудования для достижения тех же результатов.