Янник Килхер: как типичное семплирование делает нейросети человечнее

Yannic Kilcher 19,3 тыс. 48 мин 2 мин 25.03.2022
Главное

Типичное декодирование: новый взгляд на генерацию естественного языка 🧠 0:00

В современном мире больших языковых моделей (LLM) качество генерации текста напрямую зависит от стратегии декодирования — того, как именно модель выбирает следующее слово из вероятностного распределения. Янник Килхер (Yannic Kilcher) в своем обзоре научной статьи «Typical Decoding for Natural Language Generation» (авторы: Клара Майстер, Тьяго Пиментель, Джон Вихер и Райан Коттерелл) разбирает альтернативный подход под названием «типичное семплирование» (typical sampling). Основная проблема существующих методов, таких как beam search, top-k и nucleus sampling (top-p), заключается в их склонности либо к «безопасным», но скучным результатам, либо к генерации несвязных фрагментов, что делает работу моделей менее «человекоподобной»,.

⚖️ Теоретические основы: почему мы говорим именно так? 17:09

В основе метода лежит гипотеза о том, что люди при общении интуитивно балансируют между двумя крайностями: передачей максимального объема информации и риском быть неправильно понятыми.

🛠 Как работает типичное семплирование 36:34

В отличие от классических методов, которые принудительно выбирают наиболее вероятные токены, типичное семплирование использует динамический подход:

  1. Расчет энтропии: Модель вычисляет условную энтропию для текущего шага декодирования.
  2. Выбор слов: Вместо того чтобы брать топ-K слов или слова с суммарной вероятностью P, алгоритм выбирает те варианты, информационная ценность которых наиболее близка к вычисленному значению энтропии.
  3. Пороговое значение (Tau): Пользователь задает параметр $\tau$ (порог вероятностной массы), который определяет, какой объем распределения мы рассматриваем.

Этот метод особенно эффективен там, где существует огромное количество вариантов продолжения текста (например, в творческом письме или сторителлинге), тогда как для строго детерминированных задач (машинный перевод) он может быть менее полезен.

🧪 Оценка и скепсис ведущего 40:49

Янник Килхер отмечает, что метод показывает многообещающие результаты, но призывает к осторожности:

В конечном итоге, ведущий признает, что мы действительно нуждаемся в более гибких методах декодирования. Хотя к конкретной математической формулировке типичного семплирования остаются вопросы, сама идея адаптивного выбора слов на основе информационной теории выглядит крайне перспективной для будущего NLP.

💬 Цитаты

«Люди не говорят вещи, которые просто высоковероятны, потому что я хочу сказать что-то интересное.»

Янник Килхер 0:41

«Нам нужны новые стратегии семплирования, и эта — очень перспективна.»

Янник Килхер 1:46
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Декодирование
Процесс генерации текста моделью путем выбора следующего токена из распределения вероятностей.
Энтропия
Мера неопределенности или среднего количества информации в распределении вероятностей.
Beam Search
Алгоритм поиска, который сохраняет несколько наиболее вероятных путей генерации текста параллельно.
Nucleus Sampling (Top-P)
Метод выбора слов, при котором рассматривается минимальное множество токенов, суммарная вероятность которых превышает порог P.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher Typical Sampling LLM Information Theory Decoding Strategy