За пределами iid: почему классическое сжатие данных ограничено

Stanford Online 1,6 тыс. 1 ч 16 мин 3 мин 18.04.2024
Главное

За пределами iid: понимание условной энтропии и сжатия данных 📊 0:05

Лекция 8 курса Stanford EE274 посвящена фундаментальному переходу в теории сжатия данных: от работы с независимыми и одинаково распределенными (iid) данными к анализу сложных, зависимых последовательностей. Ведущий курса объясняет, почему классические методы сжатия, основанные на iid-предположениях, перестают быть оптимальными в реальном мире, где каждый последующий символ зависит от предыдущего контекста. В центре внимания — концепции условной энтропии, марковских цепей и энтропийной скорости (entropy rate), которые позволяют создавать более эффективные алгоритмы сжатия для текста, изображений и видео.

🧩 Итоги «турне» по энтропийным кодировщикам 0:33

Прежде чем углубиться в теорию, лектор подвел краткие итоги по изученным ранее методам сжатия, которые преобразуют данные на основе известного распределения вероятностей в битовый поток:

📉 Почему iid-предположение — это риск? 18:09

Попытка сжать литературное произведение, например, «Собаку Баскервилей» Артура Конан Дойля, демонстрирует ограничения теории, основанной на iid. Несмотря на теоретическую оптимальность энтропии, такие алгоритмы, как gzip и bzip2, показывают гораздо лучшие результаты, чем сжатие на основе эмпирической энтропии букв.

Причина кроется в том, что данные в реальном мире не являются независимыми:

Лектор подчеркивает, что iid-модель предполагает независимость символов, тогда как в реальности распределение меняется от символа к символу в зависимости от прошлого.

⛓️ Марковские процессы и стационарность 25:14

Для моделирования реальных данных вводятся понятия случайных процессов с произвольными зависимостями:

  1. Стационарный процесс: Процесс, вероятностные характеристики которого (среднее, дисперсия, энтропия) инвариантны во времени. Где бы мы ни находились в последовательности — в начале или в миллионной позиции — распределение остается прежним.
  2. Марковский процесс: Процесс, где будущее состояние зависит только от текущего (состояние $n$ зависит только от $n-1$). Использование более глубокого прошлого не дает дополнительной информации для прогноза.
  3. Марковские источники $k$-го порядка: Обобщение, где текущий символ зависит от $k$ предыдущих.

Интересный практический прием: если данные имеют тренд (например, времена прибытия автобусов), их можно преобразовать в стационарный процесс, просто вычислив разницу между соседними значениями (т.н. delta coding).

⚖️ Условная энтропия и информация 49:28

Лектор вводит ключевое понятие условной энтропии $H(U|V)$ — меры неопределенности в переменной $U$, если нам уже известно значение $V$.

🏁 Энтропийная скорость: предел сжатия

Для стационарных процессов вводится понятие энтропийной скорости (entropy rate). Это среднее количество бит на символ, необходимое для сжатия при стремлении размера блока к бесконечности.

Лектор приводит классический эксперимент Клода Шеннона по оценке энтропии английского языка:

Именно энтропийная скорость, согласно теореме Шеннона-Макмиллана-Бреймана, определяет фундаментальный предел сжатия для стационарных источников.

💬 Цитаты

«Очень много хорошего в сжатии, почему-то, есть на этом российском форуме.»

«В реальной жизни все является не-iid. Очень редко из природы или из реальной жизни вы получаете что-то iid.»

👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
iid (independent and identically distributed)
Свойство случайных величин, когда все они независимы друг от друга и имеют одинаковое распределение вероятностей.
Энтропийная скорость (entropy rate)
Предельное количество информации на символ в последовательности, характеризующее сложность источника данных.
Марковский процесс
Случайный процесс, где будущее состояние зависит только от текущего состояния, а не от всей истории развития.
📊 Цифры
🗓 Хронология
  1. 1950-е Появление кодирования Хаффмана.
  2. 1952 Эксперименты Шеннона по оценке энтропии языка.
  3. 1970-е Распространение арифметического кодирования.
⚖️ Другая сторона
Наука lossless compression entropy rate Markov process Shannon-McMillan-Breiman theorem