Грант Сандерсон: «Сжатие и предсказание — это две стороны одной медали»

3Blue1Brown 237 тыс. 32 мин 6 мин 07.06.2026
Главное

Как связаны между собой эффективное сжатие текстовых файлов и современные нейросети? В первой части своей серии видеороликов ведущий научно-популярного канала 3Blue1Brown Грант Сандерсон (Grant Sanderson) объясняет, почему предсказание следующего токена в больших языковых моделях (LLM) математически эквивалентно сжатию данных. На простых примерах и классических экспериментах Клода Шеннона он демонстрирует, как понятие энтропии помогает определить фундаментальные пределы обработки информации и почему сжатие называют одной из основ искусственного интеллекта.

🗜️ Сжатие как эквивалент интеллекта 0:00

Кодирование текста в двоичный формат с помощью стандартной таблицы ASCII неэффективно, так как на каждый символ тратится ровно восемь бит . Примитивная оптимизация (назначение более частым символам более коротких цепочек битов) позволяет снизить этот показатель в среднем до четырех бит на символ, а более сложные алгоритмы, учитывающие длинные последовательности, дают еще лучший результат . Однако возникает фундаментальный вопрос: где лежит предел этой эффективности?

Ответ на этот вопрос в 1940-х годах искал Клод Шеннон, чья работа заложила основы теории информации . Созданный им математический аппарат неожиданно оказался крайне полезным для современного машинного обучения. Предобучение больших языковых моделей (LLM) обычно описывают как задачу предсказания следующего токена с использованием функции потерь под названием «перекрестная энтропия» (cross-entropy loss) .

Связь здесь фундаментальная: теория информации доказывает, что предсказание и сжатие математически эквивалентны . Таким образом, процесс обучения нейросети можно представить не просто как угадывание слов, а как создание максимально эффективного архиватора текста . По словам Сандерсона, некоторые исследователи идут еще дальше, утверждая, что сжатие и есть интеллект . Сам ведущий признает эту формулировку спорной и труднодоказуемой, но подчеркивает глубокую математическую связь теории сжатия и искусственного интеллекта .

🤖 Задача о роботе: шаг за шагом к оптимальному коду 3:19

Чтобы понять, как Шеннон пришел к своей теореме о бесшумном кодировании, Сандерсон предлагает рассмотреть мысленный эксперимент с роботом на далекой луне . Робот перемещается по поверхности, получая с Земли команды четырех типов: «вверх» (Up), «вниз» (Down), «влево» (Left) и «вправо» (Right) .

Команды распределены неравномерно, но каждая отправляется независимо от предыдущей :

Ведущий предлагает рассмотреть три подхода к кодированию этих сообщений, которые могли бы предложить три разных студента :

  1. Прямолинейный подход: Использовать фиксированную длину в 2 бита на каждую команду (например: 00, 01, 10, 11). Роботу легко декодировать поток, разбивая его на равные пары бит .
  2. Эвристический (умный) подход: Назначить более частым командам более короткие коды. Например, «вверх» получает код 0, «вниз» — 10, «влево» — 110, а «вправо» — 111 . Это дает среднюю длину в 1,75 бита на команду .
  3. Теоретический подход: Утверждать, что идеальное сжатие должно давать поток, неотличимый от случайного шума с вероятностью 50% для каждого бита .

🌳 Префиксные коды и геометрия двоичного дерева 7:56

Главная сложность при использовании кодов разной длины — дать получателю возможность понять, где заканчивается одна команда и начинается другая . В схеме второго студента эта проблема решена: ни одно кодовое слово не является началом (префиксом) другого . Такие коды называют префиксными (prefix-free codes) .

Сандерсон визуализирует это правило с помощью двоичного дерева (диаграммы двоичных строк) :

Эта геометрическая пропорция идеально совпадает с вероятностями появления самих команд . Любая попытка сэкономить бит на одном слове неизбежно вызовет «эффект примятого ковра»: кодовое слово сместится ниже по дереву, вытеснив другие слова и заставив их использовать больше бит . В результате суммарная эффективность кодирования снизится.

🎲 Теория случайного шума и энтропия Шеннона 11:06

Из идеи о том, что идеальное сжатие порождает случайный шум, рождается фундаментальное определение информации . Если в идеальной схеме сообщение имеет вероятность $p$, то количество бит, необходимых для его кодирования, равно отрицательному логарифму вероятности по основанию 2: $-\log_2(p)$ .

Эта величина и была названа Клодом Шенноном информацией события . Графически это можно представить следующим образом: чем меньше вероятность события, тем выше столбец его «информативности» . Очевидные и высоковероятные сообщения несут минимум информации, в то время как редкие и неожиданные — максимум .

Шеннон понял, что эта концепция работает даже тогда, когда вероятности не являются степенями двойки и количество бит получается дробным . Благодаря свойствам логарифма, при умножении вероятностей независимых событий их информационные объемы просто складываются .

Для вычисления средней информации на символ вводится понятие энтропии ($H$) . Для распределения вероятностей формула выглядит как сумма произведений вероятности каждого события на его информацию : $$H = -\sum (p_i \log_2 p_i)$$

Как отмечает Грант Сандерсон, существует полушутливая легенда о том, что назвать эту формулу энтропией Шеннону посоветовал физик Джон фон Нейман . Последний якобы аргументировал это тем, что формула математически похожа на термодинамическую энтропию, а главное — «никто толком не понимает, что такое энтропия, так что в спорах у вас всегда будет преимущество» .

🧠 Измерение энтропии языка: от Бетти Шеннон до GPT 22:11

Расчет энтропии для реального языка гораздо сложнее, чем для команд робота, из-за огромной роли контекста . Вероятность появления буквы или слова критически зависит от предыдущего текста . В 1940-х годах у Шеннона не было мощных компьютеров для анализа статистики длинных последовательностей символов (n-граммов) . Поэтому он решил использовать в качестве «модели языка» человеческий мозг .

Шеннон провел эксперимент со своей женой Бетти . Он просил её угадывать буквы в книге по одной . Схема эксперимента выглядела следующим образом:

Позже, в статье 1950 года «Предсказание и энтропия печатного английского языка» (Prediction and Entropy of Printed English), ученый усложнил эксперимент . Он опрашивал группу людей и фиксировал количество попыток, потребовавшихся для угадывания каждого следующего символа . На основе этих данных он рассчитывал скрытую вероятность, которую мозг человека присваивал буквам .

Человеческий мозг в этих опытах выступал в роли «черного ящика» с глубоким пониманием структуры языка . В наше время, как указывает Сандерсон, исследователи перешли от допроса биологических «черных ящиков» к проектированию искусственных в виде больших языковых моделей .

На основе экспериментов с контекстом в 100 символов Шеннон оценил энтропию английского языка примерно в 1 бит на символ . Это означает, что теоретически любой английский текст можно сжать до последовательности из единиц и нулей, где на каждый символ исходного текста будет приходиться всего один бит . В следующих видео Грант Сандерсон обещает показать алгоритмы, которые с помощью современных LLM позволяют вплотную приблизиться к этому теоретическому пределу .

В завершение Сандерсон упоминает о запуске обновленного проекта — виртуальной ярмарки вакансий на сайте 3b1b.co/talent, призванной помочь его аудитории найти работу в сфере науки и IT .

💬 Цитаты

«Теория информации говорит нам, что предсказание и сжатие математически эквивалентны. Это две стороны одной медали.»

Грант Сандерсон 01:23

«Энтропия описывает минимальное количество бит на символ, необходимое для кодирования сообщения.»

Грант Сандерсон 28:42
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Энтропия Шеннона
Мера неопределенности в распределении вероятностей, определяющая теоретический предел сжатия данных.
Префиксный код
Код переменной длины, в котором ни одно кодовое слово не является началом (префиксом) другого, что гарантирует однозначное декодирование.
Перекрестная энтропия
Функция потерь в машинном обучении, измеряющая расхождение между предсказанным моделью и истинным распределением вероятностей.
📊 Цифры
🗓 Хронология
  1. 1940-е Клод Шеннон публикует работу, заложившую основы теории информации
  2. 1948 Шеннон формулирует теорему о бесшумном кодировании
  3. 1950 Шеннон публикует статью о предсказании и энтропии печатного английского языка
⚖️ Другая сторона
Математика и физика Грант Сандерсон Клод Шеннон энтропия Шеннона теория информации префиксный код