Почему ИИ говорит банальности: Янник Кильхер о методе Typical Decoding

Yannic Kilcher 19,3 тыс. 48 мин 4 мин 25.03.2022
Главное

В современном мире большие языковые модели (LLM) демонстрируют впечатляющие результаты, однако их тексты часто кажутся «пресными» или слишком предсказуемыми. По мнению Янника Кильхера (Yannic Kilcher), проблема кроется не в обучении, а в методах декодирования, которые заставляют ИИ выбирать наиболее вероятные, но скучные слова. В этом материале мы разберем предложенный исследователями метод типичного декодирования (Typical Sampling), который опирается на теорию информации, чтобы сделать речь нейросетей более человечной.

🧠 Проблема «идеальных» моделей: почему ИИ скучен? 0:00

Современные языковые модели обучаются с использованием функции максимизации правдоподобия (maximum likelihood objective). Это означает, что во время тренировки модель учится придавать огромный вес словам, которые наиболее вероятны в данном контексте. Однако при генерации текста это приводит к парадоксу: если модель всегда выбирает самые вероятные токены, результат получается «стерильным» и невыразительным.

Янник Кильхер отмечает, что человеческая речь устроена иначе:

🛠 Обзор существующих методов декодирования 4:14

Прежде чем переходить к инновациям, автор видео разбирает стандартный инструментарий, используемый в NLP сегодня. Несмотря на низкую перпендикулярность (perplexity) — показатель того, насколько хорошо модель предсказывает текст — на практике результаты часто оказываются либо дегенеративными (повторы), либо слишком банальными.

Основные стратегии, которые подвергаются критике:

  1. Greedy Decoding (Жадное декодирование): Выбор самого вероятного слова на каждом шаге. Часто ведет к зацикливанию.
  2. Beam Search (Поиск по лучу): Алгоритм рассматривает несколько возможных путей генерации на несколько шагов вперед, сохраняя «топ» наиболее вероятных цепочек. По мнению Янника, этот метод еще хуже жадного в плане «скучности», так как он целенаправленно ищет максимально вероятные последовательности.
  3. Top-k Sampling: Модель ограничивает выбор только $k$ самыми вероятными токенами, а затем выбирает из них случайным образом.
  4. Nucleus Sampling (Top-p): Вместо фиксированного числа слов выбирается динамический набор токенов, суммарная вероятность которых достигает порога $p$ (например, 0.9).

Хотя стохастические методы (Top-k и Nucleus) работают лучше Beam Search, они всё равно фокусируются исключительно на «верхушке» распределения вероятностей.

📊 Теория информации: математика неожиданности 16:44

В основе нового метода лежит концепция из теории информации. Исследователи предполагают, что человек при общении старается передать максимум информации, минимизируя при этом риск того, что его не поймут.

Ключевые понятия:

По словам Янника, если человек говорит только ожидаемые вещи, он почти не передает информации — это похоже на общение со «стереотипно скучным персонажем». Однако избыток неожиданных слов (низкой вероятности) ведет к потере смысла и грамматики.

⚖️ Гипотеза типичности: как говорят люди 25:18

Главная идея статьи Клара Мейстер (Clara Meister) и соавторов заключается в том, что в человеческом тексте информационное содержание каждого слова близко к ожидаемому информационному содержанию (условной энтропии). Это называется типичностью.

Аргументы в пользу гипотезы:

Янник Кильхер подчеркивает, что Typical Sampling отсекает как слишком маловероятные слова (риск непонимания), так и слишком вероятные (риск скуки).

🚀 Как работает Typical Sampling 36:34

Алгоритм типичного декодирования работает следующим образом:

  1. Рассчитывается условная энтропия распределения вероятностей для следующего слова.
  2. Вычисляется информационное содержание каждого возможного слова в словаре ($-\log p$).
  3. Токены сортируются не по их вероятности, а по близости их информационного содержания к значению энтропии.
  4. Слова выбираются в этот «типичный набор» до тех пор, пока их суммарная вероятность не достигнет заданного порога $\tau$.

Если распределение вероятностей очень острое (есть один явный фаворит), метод автоматически возвращается к выбору наиболее вероятных слов. Но если контекст допускает множество вариантов (например, в сторителлинге), Typical Sampling выбирает более «интересные» продолжения.

🔬 Результаты и критика Янника Кильхера 40:49

Исследователи протестировали метод на задачах генерации историй и суммаризации текстов. Было обнаружено, что пороги $\tau$ для разных задач сильно различаются: для историй оптимальным оказался $\tau = 0.2$, а для суммаризации — $\tau = 0.95$.

Янник высказывает ряд сомнений относительно работы:

Тем не менее, в качественном анализе Typical Sampling показал себя лучше: при суммаризации он выдавал меньше галлюцинаций, чем Nucleus Sampling, и сохранял больше важных деталей, чем Top-k. По мнению Кильхера, этот метод заслуживает внимания, особенно там, где важна диверсификация ответов.

💬 Цитаты

«Я не говорю вещи, которые просто очень вероятны, потому что на самом деле хочу сказать что-то интересное.»

Янник Кильхер 00:41

«Типичные сообщения — это те, которые мы ожидаем исходя из распределения вероятностей; их среднее содержание информации на символ близко к скорости энтропии.»

Янник Кильхер 32:02
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Декодирование
Процесс выбора последовательности токенов (слов) при генерации текста языковой моделью.
Перпендикулярность (Perplexity)
Метрика оценки качества языковой модели, показывающая, насколько уверенно она предсказывает выборку.
Энтропия
Мера неопределенности или хаотичности распределения вероятностей.
Галлюцинации
Генерация моделью фактологически неверной или бессмысленной информации.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Typical Sampling Yannic Kilcher Natural Language Generation LLM decoding Nucleus Sampling