Стэнфордский университет: как арифметическое кодирование приближает сжатие к энтропии

В лекции из курса Стэнфордского университета EE274 рассматривается арифметическое кодирование — один из наиболее мощных и элегантных алгоритмов в теории сжатия данных. Преподаватель подробно разбирает ограничения классических посимвольных кодов, наглядно демонстрирует геометрическую концепцию кодирования через деление интервалов и объясняет, как современные инженерные решения справляются с аппаратными ограничениями точности вычислений. Этот аналитический разбор позволяет понять, почему идея, предложенная ещё в XX веке, до сих пор лежит в основе передовых медиакодеков.

🧠 Разминка и разбор квиза: парадоксы энтропии и расстояние Кульбака — Лейблера 0:20

Лекция традиционно начинается с краткого разбора вопросов мини-викторины по материалам прошлого занятия. Первый вопрос касался бинарного источника с распределением Бернулли $1/2$. Студенты из аудитории верно предполагают, что размер типичного множества как функция от длины строки $n$ равен $2^n$. Лектор подтверждает правильность ответа и объясняет, что это особый случай: поскольку энтропия здесь равна 1, практически любая последовательность оказывается типичной. Однако преподаватель делает важную оговорку о нюансах терминологии:

Если использовать определение, где типичная последовательность обязана содержать ровно половину нулей и половину единиц, то под него подойдут далеко не все строки.
Если применять стандартные статистические определения типичности из теории информации, то в типичное множество войдут почти все возможные комбинации.

Второй блок вопросов квиза был посвящен относительному кодированию и расстоянию Кульбака — Лейблера (KL-дивергенции). В гипотетическом сценарии участвуют два персонажа: Зоро, который знает реальное распределение источника и строит оптимальный посимвольный код Хаффмана, и Луффи, который распределения не знает и кодирует символы на основе неверного распределения $Q$. На вопрос о том, сколько лишних битов в среднем придется потратить Луффи из-за своей неосведомленности, аудитория дает неожиданный ответ: ноль. Штраф отсутствует, поскольку для бинарного алфавита посимвольный код Хаффмана всегда вырождается в одно и то же тривиальное дерево, независимо от небольших колебаний вероятностей.

При этом математический расчет KL-дивергенции между распределениями $P$ и $Q$ дает величину 0.2075. Возникает закономерный вопрос: почему дивергенция указывает на неоптимальность, а на практике штрафа нет? Спикер объясняет, что KL-дивергенция гарантированно отражает избыток длины кода только в условиях приближения к теоретическому пределу — например, при работе с бесконечно большими блоками данных. В случае же посимвольного кода Хаффмана для распределения $Q$, код изначально не достигает энтропии, поэтому общие теоретические асимптотики для единичных символов не выполняются.

📉 Почему посимвольные и блочные коды проигрывают арифметическому подходу 6:21

Главная фундаментальная проблема посимвольных кодов заключается в невозможности использовать дробные биты. Преподаватель демонстрирует это на классическом примере: алфавит состоит из символов А (вероятность 0.1) и B (вероятность 0.9). Настоящая энтропия такой системы составляет всего 0.47 бита, однако любой посимвольный код (включая код Хаффмана) неизбежно выделит на каждый символ минимум 1 бит. Из-за этого возникает фиксированный оверхед в размере до 1 бита над энтропией, определяемый формулой:

$$H(X) \le E[L] < H(X) + 1$$

Чтобы обойти это ограничение, инженеры исторически использовали блочное кодирование. Если объединять символы в блоки размера $B$, то избыточность распределяется на весь блок, уменьшая удельный оверхед до уровня $1/B$. С ростом размера блока средняя длина кода уверенно стремится к энтропии, что подтверждается практическими расчетами уже для блоков длины 5.

Тем не менее лектор выделяет три критических недостатка блочного кодирования, которые делают его неприменимым в реальных высоконагруженных системах:

Экспоненциальная сложность. Размер кодовой книги растет как $2^B$. Если для блока из 10 элементов объем памяти еще управляем, то на 20 элементах он забьет всю оперативную память (RAM), а на 30 — не поместится ни в один суперкомпьютер.
Проблема малой энтропии. Если исходная энтропия $H(X)$ ничтожно мала (например, 0.01), то оверхед $1/B$ окажется гигантским по сравнению с ней. Чтобы приблизиться к идеалу хотя бы в пределах фактора 2, потребуется гигантский размер блока (около 100 символов), что абсолютно нереализуемо из-за ограничений памяти.
Задержка передачи (Latency). Блочные алгоритмы лишены потоковости. Нельзя начать декодирование до тех пор, пока не будут полностью получены все $B$ символов блока. Дополнительные неудобства создают и граничные условия, когда длина сообщения не кратна размеру блока.

🎯 Суть арифметического кодирования: от геометрии к битам 14:39

После публикации эпохального труда Клода Шеннона в 1948 году мировому сообществу потребовалось почти три десятилетия, чтобы создать практичный алгоритм, способный эффективно достигать предела энтропии. Этим решением стало арифметическое кодирование, разработанное в 1970-х годах.

«К сожалению, авторы запатентовали этот алгоритм, что привело к задержке его широкого внедрения в практику примерно на 15–20 лет», — делится исторической справкой преподаватель.

Главные концептуальные особенности арифметического кодирования:

Вся входная последовательность рассматривается как один единственный блок длины $n$, даже если она содержит миллионы символов.
Кодовое слово вычисляется «на лету» (on the fly), что избавляет систему от необходимости хранить гигантские таблицы соответствия в памяти.
Алгоритм имеет линейную вычислительную сложность $O(n)$ вместо экспоненциальной.
Избыточность кодирования составляет ничтожно малую величину порядка $2/n$, что для длинных файлов фактически превращает оверхед в ноль.

Смысл алгоритма сводится к двум последовательным шагам. Сначала вся входная строка символов отображается в определенный уникальный диапазон (интервал) на числовой прямой от 0 до 1. Затем этот интервал лаконично передается декодеру.

Базовая геометрическая интуиция здесь прозрачна: более короткие интервалы требуют большего количества знаков (битов) для точного описания, в то время как широкие интервалы можно описать очень коротко. Поскольку при делении отрезков высоковероятным символам выделяются самые широкие области, то и итоговая последовательность, состоящая из частых символов, получит максимально широкий интервал, а значит — кратчайшее битовое описание.

🪜 Пошаговый разбор алгоритма: кодирование на конкретных примерах 26:23

Для детального объяснения механики кодирования лектор использует демонстрационный алфавит из трех символов со следующими вероятностями: А — 0.3, B — 0.5, C — 0.2. Ставится задача закодировать строку BACB.

Процесс начинается с единичного интервала $[0, 1)$, который разбивается на три подотрезка, пропорциональных вероятностям букв: отрезок А занимает $[0, 0.3)$, отрезок B — $[0.3, 0.8)$, а отрезок C — $[0.8, 1)$. Математически алгоритм опирается на таблицу кумулятивных (накопленных) вероятностей для определения точных координат начала каждой зоны.

Кодирование строки BACB происходит циклически:

Первый символ — B. Текущим рабочим диапазоном становится отрезок $[0.3, 0.8)$, длина которого равна 0.5.
Второй символ — A. Новый подотрезок выделяется внутри диапазона буквы B. Мы берем его длину (0.5) и умножаем на вероятность буквы А (0.3), получая шаг 0.15. Таким образом, интервал для комбинации BA сужается до рамок $[0.3, 0.45)$.
Третий символ — C. Мы снова берем внутренние пропорции алфавита и вычленяем сегмент C внутри $[0.3, 0.45)$. Координаты сдвигаются к диапазону BAC, равному $[0.42, 0.45)$.
Четвертый символ — B. После финального деления под нужды последней буквы B система формирует итоговый микроинтервал всей строки BACB: от 0.429 до 0.444.

Во время лекции спикер решает разобрать со студентами еще один пример прямо на доске: алфавит с вероятностями А — 0.2, B — 0.4, C — 0.4 для строки BAAB. Стартовое разделение отрезка $[0, 1)$ дает границы: А — $[0, 0.2)$, B — $[0.2, 0.6)$, C — $[0.6, 1)$. Первой идет буква B, фиксируя интервал $[0.2, 0.6)$ длиной 0.4. При переходе ко второму символу (A) аудитория верно рассчитывает длину подсегмента: $0.4 \times 0.2 = 0.08$, что дает диапазон BA в границах $[0.2, 0.28)$. Третий шаг для очередной буквы A дает прибавку $0.08 \times 0.2 = 0.016$, очерчивая рамки BAA как $[0.2, 0.216)$.

На этом этапе лектор с улыбкой замечает, что на слайдах Кедара (прошлогоднего преподавателя) вкралась опечатка с перепутанными вероятностями, шутливо обещая отправить ему замечание, так как расчеты вручную становятся слишком сложными.

В общем виде логику процесса отражает базовый псевдокод кодирования:

# Инициализация границ
low = 0.0
high = 1.0

for symbol in input_sequence:
    # Функция shrink_range вычисляет новые H и L 
    # на основе кумулятивных вероятностей
    low, high = shrink_range(low, high, symbol)

🔄 Обратный процесс: как декодер восстанавливает строку 42:47

Процедуры кодирования и декодирования абсолютно симметричны. Предположим, кодер передал нам финальный интервал для строки BACB ($[0.429, 0.444)$), и мы выбрали число внутри него — например, 0.43. Задача декодера — по одному лишь числу 0.43 восстановить исходный текст.

Декодер заново воссоздает базовое разделение отрезка $[0, 1)$ на зоны А $[0, 0.3)$, B $[0.3, 0.8)$ и C $[0.8, 1)$. Очевидно, что принятое число 0.43 попадает в диапазон буквы B.

«Поскольку при кодировании интервал только сужался, мы физически не могли бы оказаться в точке 0.43, если бы изначально не выбрали букву B», — объясняет логику один из студентов.

Определив первый символ как B, декодер переходит на следующий уровень вложенности и масштабирует подотрезки внутри диапазона $[0.3, 0.8)$. Число 0.43 оказывается внутри сегмента BA ($[0.3, 0.45)$), что дает нам вторую букву — A. Повторяя эти шаги, декодер успешно извлекает всю цепочку BACB.

Однако здесь возникает серьезная проблема: число 0.43 статично, и декодер может продолжать деление до бесконечности, порождая лишние фантомные символы. Чтобы этого избежать, на практике используют два метода остановки декодирования:

Заблаговременная явная передача общей длины строки $n$ в самом начале сообщения.
Добавление в алфавит особого служебного символа — «конца файла» (EOF, End of File), которому присваивается собственная небольшая вероятность. Как только декодер натыкается на этот токен, он мгновенно прекращает работу — точно так же, как современные языковые модели (LLM) вроде ChatGPT понимают, где нужно остановить генерацию текста.

🧮 Математическое обоснование и перевод интервала в биты 52:03

Математический анализ подтверждает, что при независимом и одинаковом распределении символов (модель i.i.d.) итоговая длина интервала в точности равна произведению вероятностей всех встреченных букв, то есть равна совокупной вероятности всей строки $P(x^n)$.

Чтобы физически передать этот интервал по каналам связи, инженеры находят его среднюю точку:

$$Z = \frac{L + H}{2}$$

Затем значение $Z$ переводится в двоичную дробь (где $0.1_2 = 1/2$, $0.01_2 = 1/4$, а $0.11_2 = 3/4$). Однако двоичное представление обыкновенной дроби (например, $1/3$) в компьютере может быть бесконечным, что делает невозможной её прямую отправку. Требуется найти усеченное конечное значение $\hat{Z}$, округленное до $k$ бит. При этом критически важно, чтобы не только сам маркер $\hat{Z}$, но и любое его потенциальное битовое продолжение гарантированно оставалось внутри исходного интервала $[L, H)$, иначе декодер примет неверное решение.

Вывод формулы показывает, что требуемое количество битов $k$ напрямую привязано к логарифму длины интервала:

$$k = \left\lceil \log_2 \frac{1}{H - L} \right\rceil + 1 \le \log_2 \frac{1}{P(x^n)} + 2$$

Отсюда выводится финальная оценка средней длины арифметического кода: она не превышает величину $n \cdot H(X) + 2$ битов на всю фразу. Таким образом, удельные затраты на один символ составляют:

$$H(X) \le \text{длина кодирования} \le H(X) + \frac{2}{n}$$

Это выдающийся результат, доказывающий колоссальное превосходство метода над блочным кодом Хаффмана.

🛠️ Практические проблемы: ограниченная точность и скорость работы 1:11:27

Переходя к практической плоскости, преподаватель делится личным опытом: в теории арифметический код выглядит безупречно, но при попытке написать реальный софт инженеры моментально сталкиваются с аппаратным барьером. Главный враг алгоритма — ограниченная точность компьютерных вычислений. Поскольку с каждым новым символом интервал сужается, стандартные 64-битные числа с плавающей запятой (double/float) исчерпают свою точность уже через 100 символов, после чего компьютер перестанет отличать значение Low от High.

Для преодоления этого тупика применяется процедура масштабирования (rescaling). Замечено, что если границы Low и High подошли вплотную друг к другу (например, превратились в $0.429$ и $0.444$), то их первый разряд гарантированно совпадает — это цифра 4. Это означает, что любое число внутри этого диапазона тоже начнется с четверки. Инженеры могут не ждать окончания кодирования файла, а сразу выбросить эту общую цифру (или биты в двоичной системе) в выходной поток, а оставшуюся часть интервала растянуть на всю доступную шкалу регистра. Это делает алгоритм истинно потоковым.

«Будьте благодарны тем программистам, которые уже написали этот сложнейший код на языке C за вас, избавив от необходимости копаться в этих зубодробительных нюансах», — иронизирует лектор.

В индустрии существует несколько вариаций метода, включая «интервальное кодирование» (range coding), оптимизированное под работу с байтами, а не битами. Арифметические коды незаменимы в современных стандартах сжатия изображений, видео и экспериментальных архиваторах с экстремальным уровнем компрессии.

Слабое место арифметического кодирования — скорость вычислений. Из-за обилия тяжелых операций умножения и деления оно работает существенно медленнее простого кода Хаффмана. По этой причине во всех передовых компрессорах, созданных после 2015 года, арифметическое кодирование все чаще уступает место алгоритму tANS (Asymmetric Numeral Systems). Метод tANS представляет собой компромисс: он обеспечивает великолепную плотность сжатия, сравнимую с арифметическим кодом, но выполняет декомпрессию со скоростью кода Хаффмана.