# Питер Мэттсон о будущем AI-инфраструктуры: от MLPerf к MLCommons

Источник: https://www.youtube.com/watch?v=oHzaw2ChHvs
Канал: The TWIML AI Podcast
Опубликовано: 07.12.2020

---

В эпоху стремительного развития искусственного интеллекта потребность в единых стандартах и объективных измерениях становится критической. Питер Мэттсон, президент организации MLCommons и штатный инженер Google, в беседе с Сэмом Черрингтоном обсуждает путь от разрозненных тестов производительности к созданию полноценной индустриальной экосистемы через проект MLPerf и новую инициативу MLCommons.

## 🚀 От хаоса к стандартам: история MLPerf
[[JUMP:01:30]]

История MLPerf началась около трех лет назад, когда индустрия столкнулась с проблемой «зоопарка» метрик. По словам Питера Мэттсона, в то время компаниям было крайне сложно сравнивать различные аппаратные ускорители, так как каждый производитель заявлял о превосходстве своего продукта, используя собственные специфические показатели [04:23]. Чтобы привести всех к «общему знаменателю», Мэттсон объединился с Давидом Паттерсоном (соавтором классического труда «Архитектура компьютера: количественный подход») и представителями академической среды из Стэнфорда и Гарварда [05:01].

Основной задачей MLPerf стало создание эталонов (бенчмарков), которые измеряют реальную производительность в двух ключевых областях:

*   **Обучение (Training):** время, необходимое модели для достижения заданного уровня качества «с нуля» [06:19].
*   **Инференс (Inference):** пропускная способность при выполнении задач, например, сколько изображений кошек в секунду может распознать уже обученная система [04:10].

Мэттсон подчеркивает, что критически важным решением стал отказ от синтетических тестов в пользу реальных приложений. В пакет тестов вошли такие задачи, как ResNet для компьютерного зрения, BERT для обработки естественного языка и системы рекомендаций, которые являются основой современного поиска и интернет-коммерции [07:48]. По мнению гостя, использование реальных сценариев предотвращает ситуацию, когда инженеры оптимизируют железо под «математические абстракции», которые не имеют ничего общего с практическими задачами [08:00].

## 🏦 MLCommons: создание инфраструктуры для индустрии ИИ
[[JUMP:12:12]]

По мере роста консорциума MLPerf стало очевидно, что неформального объединения недостаточно. Для обеспечения долговечности стандартов была создана организация MLCommons [12:38]. Мэттсон сравнивает текущее состояние ИИ с эпохой братьев Райт: «Это еще не полеты на трансатлантических джетах, мы только учимся летать, и половину времени самолеты разбиваются по непонятным причинам» [13:16].

Деятельность MLCommons строится на трех «столпах»:

1.  **Бенчмаркинг:** продолжение развития MLPerf для железа и ПО.
2.  **Общедоступные наборы данных (Datasets):** создание «сырья» для моделей.
3.  **Лучшие практики (Best Practices):** разработка стандартов обмена моделями и их развертывания [15:16].

Особое внимание уделяется открытости — организация использует лицензии Apache 2.0 и приглашает к участию не только технологических гигантов вроде NVIDIA и Intel, но и стартапы, а также академическое сообщество [06:07].

### 🗣️ Проект People’s Speech: данные для всех
[[JUMP:18:32]]

В рамках второго «столпа» MLCommons запустила проект «The People’s Speech». Это один из крупнейших в мире открытых наборов данных для распознавания речи, объем которого составляет более 80 000 часов (эквивалент 10 лет непрерывного аудио) [19:00]. 

Питер Мэттсон отмечает недостатки существующих баз данных: например, популярные наборы записей из европейского парламента сильно ограничены демографически [20:17]. Цель нового проекта — демократизация технологий ИИ за счет включения 59 различных языков и расширения спектра акцентов и сценариев разговора (от чтения книг до живой речи) [21:57]. Мэттсон утверждает, что такие наборы данных — это инвестиция с колоссальным возвратом, по аналогии с Imagenet, который, по имеющимся у него данным, стоил около 300 000 долларов, но фактически запустил современную революцию в компьютерном зрении [14:10].

## 📦 MLBox и концепция «транспортных контейнеров» в ИИ
[[JUMP:24:45]]

Третий столп MLCommons призван решить проблему «темного искусства» передачи моделей от исследователя к инженеру. Питер Мэттсон констатирует факт: попытка запустить чужую модель сегодня часто означает потерю целой недели на настройку зависимостей и совместимости оборудования [25:10].

Для решения этой проблемы представлен проект MLCube (в транскрипте упоминается как MLBox/MLCube). Основная идея заимствована из истории грузоперевозок:

*   **Аналогия с контейнером:** Неважно, что внутри (вакцины или телефоны) и какая портовая инфраструктура используется — стандартный стальной ящик подходит ко всему [26:51].
*   **Техническое воплощение:** MLCube — это абстрактный интерфейс командной строки поверх Docker-контейнера. Он позволяет запускать обучение или инференс одинаковыми командами, независимо от того, какая архитектура или фреймворк находятся внутри [28:37].

По мнению Мэттсона, это шаг к «инзаменяемым частям» эпохи индустриальной революции, который позволит компаниям без огромного штата инженеров легко интегрировать ИИ-решения в свой бизнес [34:18].

## 📊 Три золотых правила измерения ИИ
[[JUMP:42:12]]

В завершение беседы Мэттсон, опираясь на свой опыт руководства командой ML Metrics в Google, сформулировал три рекомендации для тех, кто работает с метриками машинного обучения:

1.  **Начинайте с «Истинного Севера»:** Сначала определите, что вы *хотите* измерить теоретически, и только потом ищите лучшее доступное приближение [43:03].
2.  **Учитывайте стохастичность:** Результаты обучения нейросетей варьируются от запуска к запуску (влияет даже порядок операций с плавающей запятой). Необходимо проводить несколько тестов и анализировать дисперсию, а не доверять единичным «удачным» результатам [43:44].
3.  **Нормируйте стоимость:** Измерять чистую скорость бессмысленно, так как инференс бесконечно масштабируется добавлением железа. Правильный подход — оценивать производительность на единицу стоимости, мощности (ватт) или на один чип [44:38].

Мэттсон утверждает, что если дать инженерам четкую метрику, они неизбежно сделают систему лучше. В качестве примера он приводит бенчмарк ResNet, где за два года только за счет оптимизации программного стека удалось добиться 13-кратного ускорения [37:33].