# Джим Гуднайт: «Hadoop переоценен, будущее — за параллельными вычислениями»

Источник: https://www.youtube.com/watch?v=P1alNZlvpPc
Канал: DatanamiLive
Опубликовано: 02.07.2012

---

## Эволюция аналитики и аппаратных систем: взгляд Джима Гуднайта

[[JUMP:0:23]]

Джим Гуднайт, сооснователь и генеральный директор SAS Institute, обсуждает с Николь Хемсот, редактором Datanami, трансформацию сферы анализа данных и роль высокопроизводительного оборудования. В беседе затрагиваются вопросы перехода на параллельные вычисления, критика популярных Big Data фреймворков и технологические барьеры в производстве современных микропроцессоров.

### ⚙️ Аппаратное обеспечение как фундамент аналитики
[[JUMP:4:44]]

По мнению Гуднайта, аппаратное обеспечение является незаслуженно обделенной вниманием темой в дискуссиях о больших данных. Эффективность аналитики сегодня напрямую зависит от умения оптимизировать программное обеспечение под возможности современного «железа».

Ключевые тезисы о технологическом прогрессе:

* Современные вычислительные мощности стали поразительно доступными. Серверный блейд-модуль, оснащенный двумя 16-ядерными чипами (всего 32 процессора/потока) и 128 ГБ памяти, стоит около $10 000.
* Ограничение закона Мура: процесс миниатюризации микросхем упирается в длину волны ультрафиолетового излучения, используемого в литографии. При переходе к диапазону рентгеновских лучей гравировка становится невозможной, что вынуждает производителей вроде Intel наращивать количество ядер вместо уменьшения размеров транзисторов.
* GPU-вычисления: SAS рассматривал использование графических процессоров, однако столкнулся с ограничениями памяти, поэтому компания предпочитает сфокусироваться на потенциале высокопроизводительных центральных процессоров.

### 🔄 Параллелизация и оптимизация алгоритмов
[[JUMP:2:32]]

Главный вызов современной аналитики — адаптация алгоритмов, изначально написанных для последовательного выполнения на одном процессоре, к работе в параллельных системах.

Гуднайт приводит в пример кейс одного из банков в Сингапуре:

* Расчет рисков занимал 18 часов на однопроцессорной системе, так как требовалось выполнить около 200 триллионов операций.
* После оптимизации алгоритмов специалистами SAS для параллельных вычислений время обработки задачи сократилось до 15 минут.

### 📉 Критика Big Data трендов и Hadoop
[[JUMP:14:29]]

Гуднайт выражает скептицизм в отношении ряда популярных решений в сфере больших данных. В частности, он подчеркивает, что никогда не был сторонником реляционных БД (SQL) для аналитических задач, предпочитая собственные форматы файлов SAS.

Отношение к Hadoop:

* Гуднайт считает, что Hadoop часто переоценен («хайп»), и многие компании внедряют его лишь потому, что разработчики хотят писать код в рамках этой популярной экосистемы.
* Он отмечает преимущество использования интерфейса передачи сообщений (MPI) над MapReduce для итеративных моделей (например, нейронных сетей или логистической регрессии), где требуется постоянный обмен данными между узлами.
* Hadoop — это лишь файловая система, которая управляет хранением, но не знает, что именно находится внутри файлов. Это заставляет разработчиков создавать собственные форматы данных поверх нее.

### 🏥 Новые рынки: ритейл и медицина
[[JUMP:8:42]]

SAS Institute активно развивает специализированные решения для разных вертикалей бизнеса. Несмотря на то, что 40% выручки компании приходится на финансовый сектор, наблюдается рост интереса со стороны ритейла и здравоохранения.

Примеры практического применения:

* Ритейл: Сотрудничество с Macy’s. Каждую неделю системы SAS обрабатывают около 270 миллионов SKU в 850 магазинах, предлагая оптимальные цены для максимизации выручки к концу сезона.
* Здравоохранение: Почти каждый препарат, одобряемый FDA, анализируется с помощью SAS, что сделало компанию отраслевым стандартом. В Северной Каролине компания совместно с Blue Cross Blue Shield реализует проект по оценке индивидуальных рисков здоровья клиентов для формирования стратегий профилактики заболеваний.