# Грант Сандерсон: «Сжатие и предсказание — это две стороны одной медали»

Источник: https://www.youtube.com/watch?v=l6DKRf-fAAM
Канал: 3Blue1Brown
Опубликовано: 07.06.2026

---

Как связаны между собой эффективное сжатие текстовых файлов и современные нейросети? В первой части своей серии видеороликов ведущий научно-популярного канала 3Blue1Brown Грант Сандерсон (Grant Sanderson) объясняет, почему предсказание следующего токена в больших языковых моделях (LLM) математически эквивалентно сжатию данных. На простых примерах и классических экспериментах Клода Шеннона он демонстрирует, как понятие энтропии помогает определить фундаментальные пределы обработки информации и почему сжатие называют одной из основ искусственного интеллекта.

## 🗜️ Сжатие как эквивалент интеллекта
[[JUMP:00:00]]

Кодирование текста в двоичный формат с помощью стандартной таблицы ASCII неэффективно, так как на каждый символ тратится ровно восемь бит [0:14]. Примитивная оптимизация (назначение более частым символам более коротких цепочек битов) позволяет снизить этот показатель в среднем до четырех бит на символ, а более сложные алгоритмы, учитывающие длинные последовательности, дают еще лучший результат [0:27]. Однако возникает фундаментальный вопрос: где лежит предел этой эффективности?

Ответ на этот вопрос в 1940-х годах искал Клод Шеннон, чья работа заложила основы теории информации [0:54]. Созданный им математический аппарат неожиданно оказался крайне полезным для современного машинного обучения. Предобучение больших языковых моделей (LLM) обычно описывают как задачу предсказания следующего токена с использованием функции потерь под названием «перекрестная энтропия» (cross-entropy loss) [1:07].

Связь здесь фундаментальная: теория информации доказывает, что предсказание и сжатие математически эквивалентны [1:23]. Таким образом, процесс обучения нейросети можно представить не просто как угадывание слов, а как создание максимально эффективного архиватора текста [1:38]. По словам Сандерсона, некоторые исследователи идут еще дальше, утверждая, что сжатие и есть интеллект [1:53]. Сам ведущий признает эту формулировку спорной и труднодоказуемой, но подчеркивает глубокую математическую связь теории сжатия и искусственного интеллекта [2:06].

## 🤖 Задача о роботе: шаг за шагом к оптимальному коду
[[JUMP:03:19]]

Чтобы понять, как Шеннон пришел к своей теореме о бесшумном кодировании, Сандерсон предлагает рассмотреть мысленный эксперимент с роботом на далекой луне [03:19]. Робот перемещается по поверхности, получая с Земли команды четырех типов: «вверх» (Up), «вниз» (Down), «влево» (Left) и «вправо» (Right) [03:47].

Команды распределены неравномерно, но каждая отправляется независимо от предыдущей [04:00]:

*   «Вверх» отправляется в 50% случаев (вероятность 1/2);
*   «Вниз» — в 25% случаев (вероятность 1/4);
*   «Влево» — в 12,5% случаев (вероятность 1/8);
*   «Вправо» — в 12,5% случаев (вероятность 1/8).

Ведущий предлагает рассмотреть три подхода к кодированию этих сообщений, которые могли бы предложить три разных студента [04:38]:

1.  **Прямолинейный подход:** Использовать фиксированную длину в 2 бита на каждую команду (например: 00, 01, 10, 11). Роботу легко декодировать поток, разбивая его на равные пары бит [04:52].
2.  **Эвристический (умный) подход:** Назначить более частым командам более короткие коды. Например, «вверх» получает код 0, «вниз» — 10, «влево» — 110, а «вправо» — 111 [05:37]. Это дает среднюю длину в 1,75 бита на команду [05:50].
3.  **Теоретический подход:** Утверждать, что идеальное сжатие должно давать поток, неотличимый от случайного шума с вероятностью 50% для каждого бита [11:21].

## 🌳 Префиксные коды и геометрия двоичного дерева
[[JUMP:07:56]]

Главная сложность при использовании кодов разной длины — дать получателю возможность понять, где заканчивается одна команда и начинается другая [05:21]. В схеме второго студента эта проблема решена: ни одно кодовое слово не является началом (префиксом) другого [08:11]. Такие коды называют префиксными (prefix-free codes) [08:42].

Сандерсон визуализирует это правило с помощью двоичного дерева (диаграммы двоичных строк) [08:42]:

*   Назначение кода «0» для команды «вверх» мгновенно забирает ровно половину всего доступного пространства кодов (все строки, начинающиеся с 0) [09:40].
*   Код «10» для «вниз» забирает четверть пространства [09:54].
*   Коды «110» и «111» забирают по одной восьмой части пространства каждый [09:54].

Эта геометрическая пропорция идеально совпадает с вероятностями появления самих команд [10:07]. Любая попытка сэкономить бит на одном слове неизбежно вызовет «эффект примятого ковра»: кодовое слово сместится ниже по дереву, вытеснив другие слова и заставив их использовать больше бит [14:02]. В результате суммарная эффективность кодирования снизится.

## 🎲 Теория случайного шума и энтропия Шеннона
[[JUMP:11:06]]

Из идеи о том, что идеальное сжатие порождает случайный шум, рождается фундаментальное определение информации [14:56]. Если в идеальной схеме сообщение имеет вероятность $p$, то количество бит, необходимых для его кодирования, равно отрицательному логарифму вероятности по основанию 2: $-\log_2(p)$ [15:11].

Эта величина и была названа Клодом Шенноном информацией события [16:36]. Графически это можно представить следующим образом: чем меньше вероятность события, тем выше столбец его «информативности» [16:49]. Очевидные и высоковероятные сообщения несут минимум информации, в то время как редкие и неожиданные — максимум [17:01].

Шеннон понял, что эта концепция работает даже тогда, когда вероятности не являются степенями двойки и количество бит получается дробным [16:22]. Благодаря свойствам логарифма, при умножении вероятностей независимых событий их информационные объемы просто складываются [19:55].

Для вычисления средней информации на символ вводится понятие энтропии ($H$) [25:13]. Для распределения вероятностей формула выглядит как сумма произведений вероятности каждого события на его информацию [26:22]:
$$H = -\sum (p_i \log_2 p_i)$$

Как отмечает Грант Сандерсон, существует полушутливая легенда о том, что назвать эту формулу энтропией Шеннону посоветовал физик Джон фон Нейман [27:32]. Последний якобы аргументировал это тем, что формула математически похожа на термодинамическую энтропию, а главное — «никто толком не понимает, что такое энтропия, так что в спорах у вас всегда будет преимущество» [27:32].

## 🧠 Измерение энтропии языка: от Бетти Шеннон до GPT
[[JUMP:22:11]]

Расчет энтропии для реального языка гораздо сложнее, чем для команд робота, из-за огромной роли контекста [18:36]. Вероятность появления буквы или слова критически зависит от предыдущего текста [18:36]. В 1940-х годах у Шеннона не было мощных компьютеров для анализа статистики длинных последовательностей символов (n-граммов) [21:30]. Поэтому он решил использовать в качестве «модели языка» человеческий мозг [24:14].

Шеннон провел эксперимент со своей женой Бетти [22:24]. Он просил её угадывать буквы в книге по одной [22:24]. Схема эксперимента выглядела следующим образом:

*   Если Бетти угадывала неверно, Шеннон записывал правильную букву в итоговый транскрипт [22:38].
*   Если угадывала верно, буква заменялась обычным прочерком [22:38].
*   Полученный сокращенный текст содержал ту же информацию, так как человек с аналогичной моделью языка мог полностью восстановить оригинал по этим подсказкам [22:53].

Позже, в статье 1950 года «Предсказание и энтропия печатного английского языка» (Prediction and Entropy of Printed English), ученый усложнил эксперимент [23:20]. Он опрашивал группу людей и фиксировал количество попыток, потребовавшихся для угадывания каждого следующего символа [23:33]. На основе этих данных он рассчитывал скрытую вероятность, которую мозг человека присваивал буквам [23:47].

Человеческий мозг в этих опытах выступал в роли «черного ящика» с глубоким пониманием структуры языка [24:14]. В наше время, как указывает Сандерсон, исследователи перешли от допроса биологических «черных ящиков» к проектированию искусственных в виде больших языковых моделей [24:29].

На основе экспериментов с контекстом в 100 символов Шеннон оценил энтропию английского языка примерно в 1 бит на символ [30:21]. Это означает, что теоретически любой английский текст можно сжать до последовательности из единиц и нулей, где на каждый символ исходного текста будет приходиться всего один бит [30:36]. В следующих видео Грант Сандерсон обещает показать алгоритмы, которые с помощью современных LLM позволяют вплотную приблизиться к этому теоретическому пределу [30:51].

В завершение Сандерсон упоминает о запуске обновленного проекта — виртуальной ярмарки вакансий на сайте 3b1b.co/talent, призванной помочь его аудитории найти работу в сфере науки и IT [31:17].