Лекция Stanford CS149: устройство распределенных систем, MapReduce и архитектура Spark

Распределенные вычисления стали неотъемлемой частью обработки огромных массивов данных, сместив фокус с оптимизации одиночных ядер и графических процессоров на координацию тысяч независимых серверов. В рамках лекции курса CS149 в Стэнфордском университете подробно разбирается эволюция подходов к параллельной обработке данных — от классической жесткой модели MapReduce до гибкой архитектуры Apache Spark. Лектор анализирует фундаментальные проблемы распределенных систем: обеспечение отказоустойчивости, преодоление ограничений дискового ввода-вывода и эффективное использование терабайтов оперативной памяти.

🌐 От мейнфреймов к гигантским складам: концепция Warehouse-Scale Computers 0:04

Ранее в рамках курса подробно изучались методы оптимизации производительности на уровне одиночных вычислительных узлов: использование ISPC для SIMD-блоков многоядерных чипов и программирование сотен тысяч потоков на CUDA для GPU. Теперь фокус смещается на распределенные компьютеры, где система состоит из множества физически разделенных серверов, каждый из которых работает под управлением собственного экземпляра операционной системы. При масштабировании архитектуры до сотен тысяч ядер главной задачей становится обработка неизбежных аппаратных сбоев без потери прогресса вычислений.

Основная мотивация использования огромных кластеров вместо одной сверхмощной машины кроется в критической необходимости высокой пропускной способности ввода-вывода (I/O bandwidth) при работе с Big Data. По расчетам лектора, если стоит задача проанализировать сотни терабайт логов крупной платформы вроде Facebook на одном сервере со скоростью чтения данных 50 МБ/с, процедура займет 23 дня. Если же задействовать распределенный кластер из 1000 узлов, суммарная пропускная способность хранилища возрастает в 1000 раз, сокращая время обработки до 33 минут.

При переходе на масштаб в тысячи машин надежность становится сугубо статистической проблемой. Даже если среднее время безотказной работы (MTBF) одного качественного сервера составляет 25 лет, в кластере из 1000 узлов какой-нибудь компонент гарантированно будет выходить из строя каждый час.

Для управления такими мощностями индустрия перешла к концепции «компьютеров масштаба склада» (Warehouse-Scale Computers, WSC). Пионером этого подхода лектор называет выдающегося компьютерного архитектора Луиса Баррозо (Luiz Barroso), автора фундаментального труда Datacenter as a Computer. Баррозо предложил рассматривать весь распределенный дата-центр как единый гигантский компьютер, где сетевая топология, энергоснабжение, системы охлаждения и программные модели оптимизируются совместно как единая экосистема.

В начале 2000-х годов WSC собирались из дешевых коммерческих ПК, объединенных стандартным Ethernet. Сети того времени были медленными, однако сегодня индустрия оперирует скоростями от 10 до 40 Гбит/с. Разработчики из Google, Yahoo и Facebook быстро осознали, что главным отличием промышленного кластера от классического суперкомпьютера является именно сеть. В результате современные WSC перешли на кастомную высокоскоростную сетевую инфраструктуру, что постепенно приблизило их стоимость к суперкомпьютерам для научных вычислений.

🏗️ Анатомия современного дата-центра: стойки, процессоры и сетевые узлы 8:13

Типичный дата-центр состоит из сотен серверных стоек (racks). В верхней части каждой стойки монтируется коммутатор Top of Rack (TOR switch), выступающий сетевым шлюзом для связи с остальной инфраструктурой. Внутри одной стойки вертикально размещается от 20 до 40 серверов. Плотность их компоновки жестко лимитируется объемом электрической мощности, которую можно подвести к стойке — обычно этот показатель составляет от 12 до 20 кВт. В современную эпоху машинного обучения, когда серверы комплектуются тяжелыми графическими ускорителями (GPU), количество серверов в стойке приходится драматически снижать из-за колоссального энергопотребления чипов.

Локальные узлы внутри стойки связаны между собой сетью с пропускной способностью 1–2 ГБ/с. Скорость межстоечного обмена в ранних архитектурах была в 10 раз ниже (около 0,1 ГБ/с), но в современных системах она также подтянулась к уровню 2 ГБ/с.

Индивидуальный узел (сервер) представляет собой двухсокетную систему, несущую на борту два CPU, каждый из которых содержит от 16 до 32 вычислительных ядер. Сервер оснащается оперативной памятью DDR DRAM объемом от 128 ГБ до 2 ТБ. Пропускная способность локального канала памяти составляет от 100 до 200 ГБ/с. В качестве локального хранилища используются твердотельные накопители (SSD) емкостью 10–30 ТБ.

Сравнивая эти метрики, лектор указывает на фундаментальный дисбаланс: скорость обмена с локальной памятью на два порядка (в 100 раз) превышает пропускную способность дисков и сети. Поскольку каждый сервер работает под управлением изолированной ОС, узлы принципиально не имеют общего физического адресного пространства и не могут разделять общую память. Единственным доступным методом коммуникации становится передача сообщений (message passing) по сети.

Для этого поток внутри одного адресного пространства инициирует вызов Send, передавая адрес переменной, имя целевого потока и идентификатор сообщения. Поток на удаленном узле выполняет вызов Receive, принимая данные в локальную переменную. Лектор подчеркивает, что распределенная система такого типа не требует механизмов явной аппаратной синхронизации: сам акт успешной отправки и приема сообщения является точкой синхронизации, хотя программисту все еще необходимо проектировать алгоритмы так, чтобы избегать взаимных блокировок (deadlocks).

📂 Надежное хранение в ненадежной среде: распределенные файловые системы 17:48

Для надежного персистентного хранения информации поверх тысяч потенциально сбойных физических дисков разворачивается распределенная файловая система (Distributed File System, DFS). Основоположником этой концепции стала Google File System (GFS), а ее самым известным открытым воплощением является файловая система Hadoop (HDFS). Распределенные файловые системы создавались под строго определенный паттерн нагрузки: обработку гигантских файлов объемом в десятки и сотни терабайт, где преобладают операции последовательного чтения и дозаписи новых данных в конец (append), что типично для веб-логов. Модификация данных «на месте» (in-place update) в таких системах практически исключена.

Архитектурно распределенная файловая система функционирует по следующим правилам:

Исходный огромный файл прозрачно распиливается на независимые блоки (chunks) фиксированного размера — обычно от 64 до 256 мегабайт.
Каждый блок автоматически реплицируется (копируется) несколько раз и рассредотачивается по разным стойкам кластера. Это гарантирует сохранность данных даже в случае катастрофического отказа всей стойки из-за поломки ее TOR-коммутатора.
Координацию глобального пространства имен и ведение таблиц метаданных осуществляет выделенный сервер-мастер, называемый NameNode.

Когда клиентскому приложению необходимо прочитать файл, оно сначала обращается к NameNode за списком физических адресов нужных реплик. Получив метаданные, клиент связывается с конкретными дата-узлами (DataNodes) напрямую и скачивает блоки параллельно, минуя мастер-узел и не создавая на нем узкого горлышка. При записи данных клиент также запрашивает адреса у мастера, после чего последовательно обновляет блоки на всех назначенных репликах. Как отмечает лектор, вероятность отказа самого мастер-узла относительно низка, поэтому его резервирование применяется главным образом для распределения входящего трафика запросов. Концептуально DFS напоминает классическую таблицу распределения файлов (FAT), но масштабированную на тысячи сетевых машин.

🗺️ Эра MapReduce: простота, параллелизм и борьба с отказами 24:31

Чтобы избавить разработчиков от ручного написания сложной сетевой логики на низкоуровневых интерфейсах вроде MPI, была создана высокоуровневая функциональная парадигма MapReduce. В ее основу легли две математически чистые примитивы: Map (принимает коллекцию типа A и трансформирует каждый элемент в тип B) и Reduce (агрегирует последовательность элементов типа A в единый результат типа B с помощью заданной функции). Лектор акцентирует внимание на важнейшем свойстве функционального подхода: функции Map и Reduce принципиально не мутируют (не изменяют) свои входные данные. Полное отсутствие побочных эффектов (side-effect freeness) позволяет безболезненно перезапускать упавшие расчеты сколько угодно раз на одних и тех же исходных блоках, что является фундаментом отказоустойчивости всей системы.

В классической задаче подсчета уникальных посещений сайта с мобильных устройств алгоритм MapReduce реализуется следующим образом:

Планировщик порождает одну задачу Map на каждый блок входного файла, хранящегося в распределенной файловой системе. Маппер построчно считывает лог, парсит его и генерирует промежуточные пары «ключ-значение», где ключом выступает тип мобильного устройства, а значением — единица.
Затем наступает критически важная фаза масштабного сетевого обмена, называемая сортировкой или шаффлом (shuffle). Система перегруппировывает данные по сети таким образом, чтобы абсолютно все пары с одинаковыми ключами со всех мапперов кластера гарантированно съехались на один определенный узел, выделенный под конкретную задачу Reduce. Таким образом, реальная схема MapReduce представляет собой конвейер: Map -> Group By Key -> Reduce.

Для минимизации сетевого трафика планировщик MapReduce активно задействует принцип локальности данных (data locality). Вместо того чтобы пересылать тяжелые многогигабайтные блоки по сети к процессорам, исполняемый код маппера отсылается на тот конкретный сервер, где этот блок уже лежит локально на SSD.

Если в процессе вычислений один из серверов-мапперов выходит из строя, центральный мастер фиксирует прекращение его регулярных сигналов доступности (heartbeats). Планировщик оперативно перезапускает эту конкретную задачу Map на альтернативном сервере, подтягивая данные из уцелевшей реплики блока в DFS. Проблема медленных серверов («страгглеров»), которые тормозят завершение всей цепочки из-за устаревшего оборудования или высокой побочной нагрузки, элегантно решается механизмом спекулятивного выполнения (speculative execution). Мастер дублирует выполнение затянувшейся задачи на другом свободном узле. В итоге возникает гонка: если копия финиширует быстрее, ее результат фиксируется, а зависший процесс на медленной машине принудительно уничтожается.

⚠️ Ограничения MapReduce и революция In-Memory вычислений 50:34

Несмотря на простоту и колоссальный исторический вклад в развитие ИТ-индустрии, жесткая линейная структура MapReduce («карта, затем свертка») наложила суровые ограничения на спектр решаемых задач. Попытки расширить модель до поддержки произвольных направленных ациклических графов (DAG) в рамках академических проектов (например, DryadLINQ) не увенчались коммерческим успехом.

Главным изъяном MapReduce оказалась фатальная неэффективность при реализации итеративных алгоритмов. Наглядным примером служит PageRank — знаменитый поисковый алгоритм Ларри Пейджа (Larry Page) для ранжирования веб-страниц. PageRank по своей природе требует многократного циклического пересчета графа ссылок. В архитектуре MapReduce каждая новая итерация цикла железно требует полного считывания промежуточных данных из распределенной файловой системы дисков и последующей тотальной записи результатов обратно в DFS для передачи следующей итерации.

Аналогичный барьер возникает при интерактивном ad-hoc анализе, когда аналитик отправляет к одному и тому же массиву данных серию последовательных поисковых экспресс-запросов. Необходимость постоянно гонять данные через медленные сквозные каналы дискового ввода-вывода сводит производительность к нулю.

В 2011 году была опубликована концептуальная статья под заголовком «Disk-Locality in Datacenter Computing Considered Irrelevant» («Локальность дисков в дата-центрах больше не важна»). Авторы проанализировали реальную производственную статистику за 2009 год, собранную в дата-центрах Facebook, Microsoft и Yahoo. Выяснилось, что при наличии скромных по нынешним меркам 64 ГБ оперативной памяти на узел, в RAM целиком и полностью помещаются активные рабочие наборы данных (working sets) подавляющего большинства бизнес-задач:

97% рабочих наборов данных в Facebook;
98% рабочих наборов в Microsoft;
99,5% рабочих наборов в Yahoo.

Стало очевидно: промежуточные данные распределенных вычислений необходимо удерживать исключительно в молниеносной оперативной памяти, полностью исключив дисковую подсистему из цепочки обработки. Однако возник ключевой инженерный вызов: как гарантировать отказоустойчивость вычислений в RAM, ведь при малейшем сбое по питанию все данные в оперативной памяти мгновенно стираются? Проектом, который успешно решил эту дилемму, стал Apache Spark.

⚡ Apache Spark и концепция Resilient Distributed Datasets (RDD) 58:36

Главным технологическим прорывом и базовой абстракцией Apache Spark стал отказоустойчивый распределенный набор данных (Resilient Distributed Dataset, RDD). RDD представляет собой строго детерминированную, доступную только для чтения и упорядоченную коллекцию записей, аппаратно размазанную по оперативной памяти узлов кластера. Неизменяемость (immutability) превращает RDD в каноничный элемент функционального программирования.

Поскольку RDD нельзя редактировать «на месте», он создается исключительно двумя путями: либо прямой ленивой загрузкой данных из персистентной DFS (так файл логов превращается в базовый RDD lines), либо применением детерминированных трансформаций к уже существующим наборам.

Последовательность таких шагов (например, трансформация RDD lines через фильтр мобильных логов в RDD mobile_views, а затем — через фильтр браузера в RDD SafariViews) образует жесткий направленный граф происхождения данных, называемый «линейджем» (lineage). Если какой-то сервер сгорает, уничтожая свою долю RDD в RAM, Spark не восстанавливает данные из громоздких бэкапов. Система просто берет lineage-граф и по цепочке заново вычисляет конкретный утерянный фрагмент из исходных неизменяемых блоков файловой системы.

Все операции в программной модели Spark жестко разделены на два типа:

Трансформации (Transformations): К ним относятся map, filter, flatMap, sample, reduceByKey, join, sort, partitionBy. Все трансформации выполняются строго «лениво» (lazy evaluation) — при их вызове Spark не производит никаких расчетов, а лишь фиксирует новый узел в графе lineage.
Действия (Actions): Инструкции вида count, collect, reduce, lookup, save заставляют систему скомпилировать накопленный граф задач, запустить реальные вычисления на кластере и вернуть финальный агрегированный результат на управляющую машину.

Если промежуточный RDD планируется использовать в коде многократно (например, отфильтровать один раз mobile_views, а затем отдельно считать по нему статистику для Chrome и Safari), разработчик должен явно вызвать метод persist(). Данная команда приказывает рантайму Spark удерживать этот RDD в оперативной памяти узлов. Если пренебречь вызовом persist(), Spark ради экономии памяти сотрет промежуточный RDD после первого же действия, и при повторном обращении будет вынужден неэффективно перевычислять всю цепочку с самого начала.

В отличие от классических компиляторов языков C/C++, которые пасуют перед анализом сложной логики указателей, исполняющая среда Spark обладает полной высокоуровневой семантической информацией о графе вычислений. Это позволяет Spark проводить глубокую автоматическую оптимизацию кода на основе анализа типов зависимостей между разделами (partitions) RDD:

Узкие зависимости (Narrow dependencies): Ситуация, когда каждый раздел дочернего RDD зависит ровно от одного локального раздела родительского RDD (характерно для операций map и filter). В этом сценарии Spark автоматически производит слияние циклов (loop fusion) и тайлинг (tiling). Весь пайплайн трансформаций над строкой лога выполняется непрерывно внутри сверхбыстрого кэша процессора без промежуточного выделения памяти в DRAM под тяжелые промежуточные массивы, что резко повышает арифметическую интенсивность кода.
Широкие зависимости (Wide dependencies): Возникают при вызове тяжелых операций вроде groupByKey или join, когда один результирующий раздел требует порций данных от множества разнородных разделов родительских RDD. Это неизбежно порождает фазу глобального сетевого шаффла, аналогичную MapReduce.

Детальный разбор механики сетевого шаффла в Spark, а также фундаментальную тему аппаратной когерентности процессорных кэшей лектор перенес на следующие занятия, завершив выступление анонсом лекции Кейвона Фатахалиана (Kayvon Fatahalian), посвященной методам эффективного аппаратного развертывания глубоких нейросетей (DNN).