Ронен Дар (Run:ai): «Спрос на вычислительные мощности вырос в 100 миллионов раз за 10 лет»

Eye on AI 849 1 ч 10 мин 5 мин 12.05.2024
Главное

Рынок искусственного интеллекта столкнулся с парадоксальной ситуацией: при колоссальном дефиците вычислительных мощностей реальная эффективность использования уже закупленных графических процессоров (GPU) остается крайне низкой. В новом выпуске подкаста «Eye on AI» Крейг Смит обсуждает с Роненом Даром, сооснователем и техническим директором компании Run:ai, как программная оптимизация и умное планирование могут удвоить производительность существующих кластеров и почему в эпоху LLM инфраструктурный слой становится важнее самих алгоритмов.

🧠 Путь от теории информации к архитектуре GPU-кластеров 3:59

Ронен Дар, технический директор Run:ai, обладает фундаментальной академической базой: он получил степени магистра и доктора наук (PhD) в Тель-Авивском университете, специализируясь на теории информации . Пройдя постдокторантуру в США и поработав в таких гигантах, как Intel, Дар объединил глубокие знания в области проектирования чипов с пониманием софтверных процессов.

В 2018 году вместе с партнером Омри Геллером он основал Run:ai. По словам гостя, ключевым решением было сфокусироваться именно на инфраструктурном слое AI. На тот момент в индустрии еще велись споры о возможной «зиме искусственного интеллекта», однако основатели стартапа разглядели тренд: для обучения нейросетей требуется экспоненциально растущее количество вычислительных мощностей, а существующая архитектура дата-центров, заточенная под CPU, не справляется с динамическими нагрузками GPU .

🏗️ Проблематика GPU: Почему традиционные облака неэффективны 8:49

Основная проблема современных дата-центров, по мнению Ронена Дара, заключается в том, что стек программного обеспечения для облаков (Kubernetes, контейнеризация) изначально создавался для микросервисов и центральных процессоров (CPU). GPU — это «совсем другой зверь» :

Технология Run:ai предлагает решение в виде движка, работающего внутри Kubernetes, который позволяет «фракционировать» (дробить) GPU и внедрять продвинутые алгоритмы планирования. Ронен Дар утверждает, что после внедрения их платформы клиенты наблюдают рост утилизации мощностей в 2–3 раза .

⚙️ Виртуализация на уровне API и динамическое планирование 21:53

Одной из самых сложных инженерных задач является масштабирование моделей за пределы 70 миллиардов параметров. По оценкам экспертов, упомянутых в беседе, до этого порога исследователь может справиться самостоятельно, но выше начинаются проблемы с сетевыми задержками и падением утилизации .

Run:ai решает это через два ключевых механизма:

  1. Планирование (Scheduling): Система в реальном времени распределяет ресурсы между задачами разного приоритета. Если исследователь просто открыл Jupyter Notebook для экспериментов, ему выделяется лишь малая часть чипа. Как только запускается массивное обучение на тысячи GPU, система автоматически освобождает и перераспределяет мощности .
  2. Виртуализация на уровне CUDA: Run:ai перехватывает вызовы на уровне API (CUDA-интерцепция). Это позволяет нескольким рабочим нагрузкам одновременно использовать один физический процессор, обеспечивая при этом изоляцию памяти . Это критически важно для инференса (вывода) моделей, где запросы могут быть короткими и редкими.

📉 Революция LLM и стоимость инференса 29:50

С появлением больших языковых моделей (LLM) акцент сместился с обучения на эксплуатацию (инференс). Стоимость работы ChatGPT или аналогичных сервисов колоссальна из-за высоких требований к памяти. Ронен Дар приводит пример: для модели Llama 2 с 7 млрд параметров требуется около 14 ГБ памяти GPU . Современные чипы, такие как NVIDIA H100, имеют 80 ГБ памяти. Без умной виртуализации на таком чипе работала бы одна модель, занимая 20% ресурса. Run:ai позволяет запустить до десяти таких моделей на одном процессоре, что дает десятикратное снижение затрат .

Гость также выделил проблему автоскейлинга (автоматического масштабирования):

🌍 Геополитика, дефицит и NVIDIA 49:45

Обсуждая текущий дефицит чипов, Ронен Дар отметил, что спрос на вычислительные мощности вырос в 100 миллионов раз за последние 10 лет . Это создало ситуацию, когда даже крупнейшие корпорации не могут получить доступ к GPU «по требованию» в облаке — время ожидания может составлять дни .

Ключевые факты о рынке:

Ронен Дар выразил уверенность, что даже при появлении сильных конкурентов, таких как Cerebras с их технологией «чип на целую пластину» (wafer-scale), рынок настолько огромен, что места хватит всем. Однако NVIDIA остается фаворитом благодаря программному стеку CUDA, разработку которого они начали еще в 2007 году, предвосхитив нужды рынка за пять лет до бума глубокого обучения .

🔋 Экологический след и будущее инфраструктуры 1:05:30

На вопрос ведущего о растущем энергопотреблении дата-центров и углеродном следе, Ронен Дар ответил с долей пессимизма: по соображениям гостя, потребление энергии будет только расти . Несмотря на усилия по повышению эффективности, аппетиты AI-компаний к вычислениям увеличиваются быстрее, чем внедряются «зеленые» технологии. В шутку собеседники обсудили даже возможность выноса дата-центров на Луну, чтобы справиться с тепловыделением и энергозатратами на Земле .

В краткосрочной перспективе именно такие решения, как Run:ai, являются наиболее реалистичным способом сдерживания энергопотребления. Увеличивая утилизацию существующих чипов вдвое, компания фактически избавляет индустрию от необходимости производить и питать в два раза больше оборудования для достижения тех же результатов.

💬 Цитаты

«OpenAI — самая успешная AI-компания на данный момент — привлекла 10 миллиардов долларов два года назад, и большая часть этих денег уходит на покупку GPU.»

Ронен Дар 51:52

«Вы можете ждать днями, чтобы получить доступ к новейшим GPU в любом облаке прямо сейчас.»

Ронен Дар 56:04

«Спрос на GPU и ускорители в целом будет продолжать расти с той же скоростью в ближайшее десятилетие, в этом нет сомнений.»

Ронен Дар 51:22
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
GPU Utilization
Процент времени или мощности, в течение которого графический процессор реально выполняет вычисления, а не простаивает.
CUDA
Программно-аппаратная архитектура параллельных вычислений от NVIDIA, позволяющая использовать GPU для вычислений общего назначения.
Inference
Процесс работы уже обученной нейросети, когда она выдает результат (ответ) на запрос пользователя.
Wafer-scale
Технология производства чипов размером с целую кремниевую пластину, что позволяет избежать задержек при передаче данных между отдельными процессорами.
📊 Цифры
🗓 Хронология
  1. 2007 NVIDIA запускает архитектуру CUDA, закладывая фундамент для будущих AI-вычислений.
  2. 2012 Выход модели AlexNet, доказавшей эффективность использования GPU для глубокого обучения.
  3. 2018 Основание компании Run:ai в Израиле Роненом Даром и Омри Геллером.
  4. 2024 Массовый переход индустрии на резервирование GPU и поиск способов оптимизации инференса LLM.
⚖️ Другая сторона
Искусственный интеллект Run:ai Ronen Dar Nvidia GPU utilization Kubernetes