Основы сжатия данных в Стэнфорде: от зеттабайтов до энтропии

Stanford Online 16 тыс. 1 ч 2 мин 4 мин 18.04.2024
Главное

В Стэнфордском университете стартовал курс EE274, посвященный теории и практике сжатия данных. В первой лекции преподаватели Пулькит (Pulkit) и Шубхам (Shubham) под руководством профессора Цзиньсиня Цзу (Tsachy Weissman) представили обзор индустрии и заложили математический фундамент безвозвратного сжатия информационных потоков.

📈 Эра зеттабайтов: почему сжатие данных критично сегодня 1:05

Мир переживает фазу экспоненциального роста объемов данных. Пулькит продемонстрировал масштаб проблемы через иерархию единиц измерения :

По словам лектора, сжатие необходимо не только для экономии места (хранение в покое), но и для обеспечения передачи данных (движение данных). В 2021 году видеоконтент составил около 50% всего интернет-трафика . Во время пандемии COVID-19 европейские регуляторы официально просили Netflix снизить битрейт вещания, так как сетевая инфраструктура не справлялась с нагрузкой .

🛠 Где применяется сжатие: от GitHub до биомедицины 8:14

Сжатие — это не только архивация файлов в ZIP. Пулькит выделил несколько неочевидных сфер:

  1. Разработка ПО: При выполнении команды git pull система в фоновом режиме выполняет compressing objects. Без сжатия версионный контроль был бы невозможен из-за избыточности копий .
  2. Машинное обучение (ML): Существует двусторонняя связь. ML используется для улучшения алгоритмов сжатия, а сжатие (квантование моделей, таких как Llama) позволяет запускать тяжелые нейросети на локальных устройствах .
  3. Медицина: В нейропротезировании (например, глазные протезы) сбор и передача данных ЭЭГ требуют экстремального сжатия. Без него устройство могло бы перегреться и повредить ткани из-за объема вычислений и мощности передатчика .

⚖️ Компромисс между качеством и размером (Lossy Compression) 11:01

Центральная концепция курса — поиск баланса на кривой «скорость–искажение» (Rate-Distortion curve) . Лектор провел эксперимент с аудиозаписью:

Аналогичный пример был приведен для изображений. Оригинальную картинку (585 КБ) удалось сжать в 500 раз (до 1.3 КБ) . Хотя ключевые черты персонажа остались узнаваемыми, появились «артефакты звона» (ringing artifacts) — визуальные искажения, которые студенты будут изучать позже в контексте алгоритмов JPEG и BPG.

🎓 Теоретический фундамент и «магическое число» 22:15

Пулькит подчеркнул, что сжатие — это «чистейшая форма обработки информации» . Он развеял миф о «бесконечном сжатии»:

🧬 Введение в Lossless (сжатие без потерь) 35:52

Во второй половине лекции Шубхам перешел к математике. Для понимания курса достаточно знать базовую теорию вероятностей: случайные величины, математическое ожидание и совместное распределение .

Фиксированная длина против переменной 43:33

Если у нас есть алфавит из четырех символов {A, B, C, D}, стандартный подход (например, ASCII) использует 8 бит на символ. Однако для 4 вариантов достаточно 2 бит (00, 01, 10, 11) . При 1 миллионе символов это сокращает файл с 1 МБ до 250 КБ.

Если распределение вероятностей символов неравномерно, можно использовать коды переменной длины . Ключевое правило: часто встречающимся символам — короткие коды, редким — длинные .

Пример расчета 58:07

Для распределения: A (0.49), B (0.49), C (0.01), D (0.01) предложен код:

Средняя длина кода рассчитывается как сумма произведений вероятностей на длины : $(0.49 \times 1) + (0.49 \times 2) + (0.01 \times 3) + (0.01 \times 3) = 1.53$ бита на символ.

Это значительно лучше фиксированных 2 бит, но Шубхам утверждает, что предел для этого распределения еще ниже — всего 1.14 бита на символ . Лектор подытожил, что результаты Шеннона позволяют доказать невозможность сжатия данных эффективнее этого предела даже с использованием бесконечных вычислительных мощностей или интеллекта калибра Альберта Эйнштейна .

💬 Цитаты

«Сжатие — это, по сути, краткое представление информации.»

«Хороший компрессор — это очень хороший предсказатель, и наоборот.»

«Самый умный человек на Земле не сможет сжать данные лучше предела, потому что это математически невозможно.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Зеттабайт (ZB)
Единица измерения объема данных, равная 10 в 21-й степени байт.
Rate-Distortion Theory
Раздел теории информации, изучающий минимальную скорость передачи данных при заданном уровне искажений.
Lossless Compression
Сжатие данных, позволяющее восстановить оригинал бит-в-бит без малейших изменений.
Энтропия
Мера неопределенности или сложности источника данных, определяющая теоретический предел сжатия.
📊 Цифры
⚖️ Другая сторона
Технологии и IT Tsachy Weissman Stanford University сжатие без потерь энтропия Claude Shannon