Теорема Шеннона: как телеграммы XIX века объясняют законы сжатия данных

В лекции профессора Анкура Мойтры из MIT OpenCourseWare рассматриваются фундаментальные основы теории информации, заложенные Клодом Шенноном в середине XX века. Центральной темой обсуждения становится теорема Шеннона для бесшумного кодирования, которая определяет абсолютный математический предел для сжатия данных. Автор подробно разбирает математический аппарат, стоящий за понятием энтропии, и объясняет, как вероятностные инструменты помогают находить оптимальные методы кодирования сообщений.

🏛️ Исторический контекст и эволюция сжатия данных 0:00

Изучение сложных математических тем в рамках этого курса начинается с доказательства одной из важнейших теорем теории информации. Как отмечает профессор Мойтра, это довольно сложные темы, ведь на лекции планируется доказать всего одну теорему. Однако эта теорема, называемая теоремой Клода Шеннона о бесшумном кодировании, задействует множество вероятностных инструментов. Интересно, что все фундаментальные открытия, о которых пойдет речь, были сформулированы Клодом Шенноном в 1948 году непосредственно в стенах здания Массачусетского технологического института (Building 2) до его масштабной реконструкции.

Повседневное использование текстовых сообщений демонстрирует естественное стремление людей к сжатию информации с помощью сокращений вроде «BRB». Однако этот феномен возник задолго до появления мобильных телефонов. Во времена широкого использования телеграфа отправка сообщений стоила значительных денег, примерно 1 доллар за слово. Чтобы минимизировать расходы, компании создавали специализированные кодовые книги, где целые фразы заменялись одним коротким буквенным сочетанием.

В старинных телеграфных книгах можно найти удивительные примеры таких сокращений:

Слово «has not been reinsured» (не было перестраховано) заменялось одним труднопроизносимым словом.
Акроним «A-Z-K-H-E» переводился как «clean bill of health» (справка о хорошем здоровье).
Сочетание «NBET» использовалось для передачи фразы «captain is insane» (капитан сошел с ума).

Цель математического подхода к сжатию данных заключается в поиске наиболее эффективных и фундаментально обоснованных способов сокращения длины сообщений.

🎲 Математическая модель источника данных и кодирования 5:12

Для построения строгой теории необходимо дать точные математические определения ключевым объектам. Простейший вариант источника данных, называемый источником первого порядка, описывается алфавитом и распределением вероятностей на нем.

Алфавит представляет собой конечное множество возможных символов:

$$A = {a_1, a_2, \dots, a_k}$$

Распределение вероятностей $p$ на этом алфавите задает вероятность появления каждого конкретного символа от первого до $k$-го. Такой источник первого порядка можно представить как несправедливую $k$-гранную игральную кость. При каждом броске кости выпадает определенный символ алфавита, формируя длинную строку из независимых одинаково распределенных (IID) случайных величин фиксированной длины $n$. Хотя реальный человеческий язык гораздо сложнее и требует использования более богатых моделей вроде цепей Маркова, для базовой теории этой схемы достаточно.

Функция кодирования $\phi$ отображает сообщения длины $n$, сгенерированные источником, в строки из нулей и единиц произвольной длины. Важной особенностью является то, что длина выходной строки не зафиксирована. Это позволяет сопоставлять более частым сообщениям более короткие битовые комбинации.

Для успешного декодирования функция должна обладать свойством инъективности, гарантирующим отсутствие коллизий:

$$\forall x \neq y \implies \phi(x) \neq \phi(y)$$

Любые два различных сообщения должны переходить в разные битовые строки. В рамках этой лекции предполагается, что длина сообщения $n$ огромна и зафиксирована, а кодирование происходит за один прием с явным маркером завершения сообщения.

📊 Асимметрия вероятностей: пример неэффективности наивного подхода 11:41

Чтобы проиллюстрировать влияние распределения вероятностей на длину кода, профессор Мойтра рассматривает пример алфавита из двух символов $a_1$ и $a_2$ с сильной асимметрией. Пусть вероятность появления первого символа составляет $p_1 = 7/8$, а второго — $p_2 = 1/8$. При длине сообщений $n = 2$ источник может сгенерировать четыре возможных варианта комбинаций.

Каждая комбинация обладает своей вероятностью:

Сочетание $a_1 a_1$ встречается с вероятностью $49/64$.
Сочетание $a_1 a_2$ имеет вероятность $7/64$.
Сочетание $a_2 a_1$ имеет вероятность $7/64$.
Сочетание $a_2 a_2$ крайне маловероятно и выпадает с шансом всего $1/64$.

Наивный способ кодирования подразумевает замену каждого символа по отдельности: $a_1$ переходит в 0, а $a_2$ — в 1. В этом случае все сообщения ($00, 01, 10, 11$) будут иметь фиксированную длину. Математическое ожидание длины для такого наивного кодирования всегда равно 2, независимо от распределения вероятностей источника.

Однако эту схему можно улучшить, если сопоставить самому частому исходу $a_1 a_1$ самую короткую битовую строку. Например, если назначить сообщению $a_1 a_1$ код 0, а остальным — 10, 110 и 111 соответственно, то новое ожидаемое значение длины составит $87/64$, что строго меньше двух. Этот пример наглядно доказывает, что учет неравномерности распределения позволяет добиться существенного выигрыша в сжатии.

📐 Теорема Шеннона и понятие энтропии 17:15

Оптимальный предел сжатия напрямую связан с понятием энтропии, которая является ключевой концепцией теории информации.

Бинарная энтропия распределения вероятностей $p$ для $k$ символов рассчитывается по формуле:

$$H(p) = -\sum_{i=1}^{k} p_i \log_2 p_i$$

Поскольку значения вероятностей $p_i \le 1$, логарифм под знаком суммы всегда отрицателен, но внешний знак минуса делает итоговое значение энтропии неотрицательным.

Теорема Клода Шеннона о бесшумном кодировании состоит из двух частей. Первая часть утверждает, что для любого валидного кодека $\phi$ ожидаемая длина закодированного сообщения не может быть меньше величины:

$$L \ge H \cdot n - o(n)$$

Здесь символ $o(n)$ обозначает функцию, которая растет медленнее, чем $n$ (например, $\sqrt{n}$ или $n / \log n$). Вторая часть (обратная теорема) гарантирует существование такой функции кодирования, чья ожидаемая длина не превышает $H \cdot n + o(n) $. Таким образом, энтропия $H$ представляет собой точную асимптотическую границу средней длины описания на один символ алфавита.

С точки зрения интуиции, наибольшую длину кодирования требует равномерное распределение, когда вероятности всех $k$ исходов равны $1/k$. В этом случае энтропия принимает свое максимальное значение, равное $\log_2 k$. При равномерном распределении символов наивное посимвольное кодирование фиксированной длины невозможно превзойти, поскольку в данных отсутствует какая-либо предсказуемость или диспропорция, которую можно было бы эксплуатировать.

🌳 Древовидное кодирование и лемма о равномерном распределении 26:41

Для доказательства нижней границы теоремы Шеннона вводится вспомогательная лемма о поведении кодов при равномерном распределении символов. Согласно этой лемме, любая функция кодирования для равномерного распределения на $k$ символах имеет ожидаемую длину не менее чем $\log_2 k - O(1)$.

Для доказательства этого утверждения функцию кодирования удобно представить графически в виде двоичного дерева, где кодовые слова соответствуют вершинам. Корень дерева эквивалентен пустому множеству (отсутствию сигналов), а левые и правые ответвления соответствуют добавлению нулей и единиц. Требование отсутствия коллизий для валидного кода означает, что каждому символу должен соответствовать уникальный узел дерева.

Чтобы минимизировать среднюю глубину узлов (длину кода), необходимо последовательно заполнять уровни дерева сверху вниз. В силу полной эквивалентности и симметричности символов при равномерном распределении, подавляющее большинство кодовых слов неизбежно окажется на нижних уровнях дерева, где их глубина (длина битовой строки) будет близка к $\log_2 k$. Небольшая константная погрешность возникает лишь из-за наличия нескольких символов на более близких к корню уровнях.

🧮 Мысленный эксперимент: мультиномиальные коэффициенты и формула Стирлинга 30:33

Переходя к общему случаю неравномерного распределения, профессор Мойтра предлагает мысленный эксперимент. Представим, что задача упрощается, и кодировщику заранее сообщается точное количество вхождений каждого символа в строке: $n_1$ раз встретился символ $a_1$, $n_2$ раз — символ $a_2$ и так далее. Позиции этих символов остаются неизвестными, но их общие счетчики зафиксированы.

Количество возможных последовательностей, удовлетворяющих такому условию, задается мультиномиальным коэффициентом:

$$M = \frac{n!}{n_1! n_2! \dots n_k!}$$

Этот коэффициент обобщает число сочетаний на случай $k > 2$ цветов или типов элементов. Важнейшее наблюдение состоит в том, что все эти $M$ последовательностей обладают абсолютно одинаковой вероятностью появления, равной $p_1^{n_1} p_2^{n_2} \dots p_k^{n_k}$. Следовательно, зафиксировав частоты символов, мы возвращаемся к задаче о равномерном распределении на множестве из $M$ элементов.

Опираясь на ранее доказанную лемму о равномерном распределении, математическое ожидание длины кода для таких строк должно составлять не менее $\log_2 M - O(1)$.

Для раскрытия значения логарифма мультиномиального коэффициента применяется аппроксимация Стирлинга:

$$\ln n! \approx n \ln n - n$$

После подстановки формулы Стирлинга и логарифмических преобразований получается выражение:

$$L \ge n \log_2 n - \sum_{i=1}^{k} n_i \log_2 n_i$$

Все корректирующие члены вида $n \log_2 e$ взаимно уничтожаются, поскольку сумма всех индивидуальных счетчиков $n_i$ в точности равна общей длине строки $n$. Разделив выражение на $n$, можно заметить, что доли символов $n_i/n$ ведут себя как вероятности, превращая формулу в классическое выражение для энтропии.

📉 Закон больших чисел: типичные последовательности и неравенство Чебышёва 44:02

Ограничение мысленного эксперимента, связанное с необходимостью жесткого знания счетчиков $n_i$, снимается с помощью принципа больших уклонений и понятия типичных последовательностей. Строка длины $n$ называется $\epsilon$-типичной, если для всех символов алфавита эмпирическая частота их появления $n_i/n$ находится в пределах $\epsilon$ от их истинной теоретической вероятности $p_i$.

Используя неравенство Чебышёва для суммы независимых случайных величин, можно доказать, что с ростом длины строки $n$ вероятность того, что случайно сгенерированная последовательность окажется типичной, стремится к единице.

Оценка этой вероятности снизу имеет вид:

$$P(\text{typical}) \ge 1 - \frac{k}{\epsilon^2 n}$$

Поскольку размер алфавита $k$ и целевая точность $\epsilon$ фиксированы, при устремлении $n$ к бесконечности дробь превращается в ноль, что гарантирует типичность почти любой длинной строки.

Полное доказательство нижней границы теоремы Шеннона завершается применением закона полной цепочки математических ожиданий. Общее ожидание длины кода раскладывается на две составляющие: для типичных и нетипичных строк. Вклад нетипичных строк можно отбросить для получения оценки снизу. Для типичных же строк частоты $n_i/n$ близки к $p_i$, а сама функция энтропии непрерывна и слабо меняется при малых колебаниях аргументов на величину $\epsilon$. Это позволяет окончательно зафиксировать нижний предел $n \cdot H(p) - o(n)$.

🧱 Реализация оптимального сжатия: блочные диаграммы 54:31

Доказательство второй части теоремы Шеннона носит конструктивный характер и опирается на блочную схему кодирования. Количество всех возможных $\epsilon$-типичных последовательностей $M'$ ограничено сверху величиной, близкой к $2^{n H(p)}$. При этом общее число возможных типов распределений (сигнатур) растет полиномиально как $n^k$, а не экспоненциально.

Алгоритм работы оптимального кодера можно представить в виде следующей последовательности шагов:

На вход поступает исходное сообщение длины $n$.
Выполняется проверка: является ли данное сообщение $\epsilon$-типичным.
Если ответ «Да», то первым битом передается маркер успешной проверки. Далее кодируется конкретная сигнатура (частоты $n_1, \dots, n_k$), на что затрачивается $k \log_2 n$ бит. В завершение передается порядковый номер строки внутри этой сигнатуры, требующий $\log_2 M'$ бит.
Если ответ «Нет», то передается маркер ошибки. Для оставшейся нетипичной строки применяется наивное посимвольное кодирование фиксированной длины.

Математический анализ такой блочной схемы показывает, что суммарная ожидаемая длина кода определяется преимущественно «удачной» ветвью алгоритма. Затраты на передачу маркеров и сигнатур составляют $k \log_2 n$, что укладывается в рамки сублинейной погрешности $o(n)$. Вероятность пойти по «неудачной» ветви в силу неравенства Чебышёва ничтожно мала (порядка $1/n$), поэтому даже использование грубого наивного кодирования в этом редком случае не способно ухудшить общую асимптотику, составляющую $n \cdot H(p) + o(n)$.

🔮 Ограничения теории и анонс будущих лекций 1:05:45

Несмотря на теоретическую элегантность и строгость доказанного результата Клода Шеннона, предложенная им схема имеет колоссальный практический недостаток. По мере роста длины блока $n$ размер кодовой книги для кодирования и декодирования увеличивается экспоненциально. Это делает невозможным реальное применение алгоритма в вычислительной технике, поскольку кодировщику пришлось бы хранить гигантские таблицы соответствий для всех мыслимых сообщений.

Для преодоления этой проблемы на следующих лекциях будут рассмотрены более практичные подходы:

Код Хаффмана (Huffman code): Тема следующего занятия посвящена эффективному алгоритму посимвольного кодирования с использованием комбинаторных методов, который позволяет быстро кодировать и декодировать информацию без экспоненциальных затрат памяти.
Теорема Шеннона для каналов с шумом: Вторая главная теорема Шеннона рассматривает проблему неизбежного искажения и коррупции сигналов при передаче на большие расстояния. Будет показано, как с помощью избыточности кодирования можно полностью восстанавливать исходные данные.

Эти концепции лежат в основе современной теории кодирования и находят широкое применение во многих областях компьютерных наук, включая такие передовые направления, как разработка квантовых компьютеров и алгоритмы квантовой коррекции ошибок. В завершение лекции профессор Мойтра призвал студентов не убирать ногу с педали газа, поскольку впереди их ждет еще много сложного учебного материала.