Эволюция аналитики и аппаратных систем: взгляд Джима Гуднайта 0:23
Джим Гуднайт, сооснователь и генеральный директор SAS Institute, обсуждает с Николь Хемсот, редактором Datanami, трансформацию сферы анализа данных и роль высокопроизводительного оборудования. В беседе затрагиваются вопросы перехода на параллельные вычисления, критика популярных Big Data фреймворков и технологические барьеры в производстве современных микропроцессоров.
⚙️ Аппаратное обеспечение как фундамент аналитики 4:44
По мнению Гуднайта, аппаратное обеспечение является незаслуженно обделенной вниманием темой в дискуссиях о больших данных. Эффективность аналитики сегодня напрямую зависит от умения оптимизировать программное обеспечение под возможности современного «железа».
Ключевые тезисы о технологическом прогрессе:
- Современные вычислительные мощности стали поразительно доступными. Серверный блейд-модуль, оснащенный двумя 16-ядерными чипами (всего 32 процессора/потока) и 128 ГБ памяти, стоит около $10 000.
- Ограничение закона Мура: процесс миниатюризации микросхем упирается в длину волны ультрафиолетового излучения, используемого в литографии. При переходе к диапазону рентгеновских лучей гравировка становится невозможной, что вынуждает производителей вроде Intel наращивать количество ядер вместо уменьшения размеров транзисторов.
- GPU-вычисления: SAS рассматривал использование графических процессоров, однако столкнулся с ограничениями памяти, поэтому компания предпочитает сфокусироваться на потенциале высокопроизводительных центральных процессоров.
🔄 Параллелизация и оптимизация алгоритмов 2:32
Главный вызов современной аналитики — адаптация алгоритмов, изначально написанных для последовательного выполнения на одном процессоре, к работе в параллельных системах.
Гуднайт приводит в пример кейс одного из банков в Сингапуре:
- Расчет рисков занимал 18 часов на однопроцессорной системе, так как требовалось выполнить около 200 триллионов операций.
- После оптимизации алгоритмов специалистами SAS для параллельных вычислений время обработки задачи сократилось до 15 минут.
📉 Критика Big Data трендов и Hadoop 14:29
Гуднайт выражает скептицизм в отношении ряда популярных решений в сфере больших данных. В частности, он подчеркивает, что никогда не был сторонником реляционных БД (SQL) для аналитических задач, предпочитая собственные форматы файлов SAS.
Отношение к Hadoop:
- Гуднайт считает, что Hadoop часто переоценен («хайп»), и многие компании внедряют его лишь потому, что разработчики хотят писать код в рамках этой популярной экосистемы.
- Он отмечает преимущество использования интерфейса передачи сообщений (MPI) над MapReduce для итеративных моделей (например, нейронных сетей или логистической регрессии), где требуется постоянный обмен данными между узлами.
- Hadoop — это лишь файловая система, которая управляет хранением, но не знает, что именно находится внутри файлов. Это заставляет разработчиков создавать собственные форматы данных поверх нее.
🏥 Новые рынки: ритейл и медицина 8:42
SAS Institute активно развивает специализированные решения для разных вертикалей бизнеса. Несмотря на то, что 40% выручки компании приходится на финансовый сектор, наблюдается рост интереса со стороны ритейла и здравоохранения.
Примеры практического применения:
- Ритейл: Сотрудничество с Macy’s. Каждую неделю системы SAS обрабатывают около 270 миллионов SKU в 850 магазинах, предлагая оптимальные цены для максимизации выручки к концу сезона.
- Здравоохранение: Почти каждый препарат, одобряемый FDA, анализируется с помощью SAS, что сделало компанию отраслевым стандартом. В Северной Каролине компания совместно с Blue Cross Blue Shield реализует проект по оценке индивидуальных рисков здоровья клиентов для формирования стратегий профилактики заболеваний.