Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»

Yannic Kilcher 115 тыс. 45 мин 2 мин 25.11.2023
Главное

Основы обучения с подкреплением: Что такое Q-Learning? 0:00

Янник Килчер (Yannic Kilcher) в своем обзоре базовых принципов обучения с подкреплением (Reinforcement Learning) подробно разбирает концепцию Q-Learning, которая вновь стала актуальной на фоне спекуляций вокруг алгоритма Q от OpenAI. Хотя Q может оказаться чем-то совершенно иным, понимание основ Q-Learning помогает осознать, как ИИ-агенты могут принимать долгосрочные решения, ориентируясь на награды.

Цикл обучения с подкреплением 1:05

В основе обучения с подкреплением лежит взаимодействие агента с окружающей средой. Этот процесс можно представить как циклический обмен:

Килчер отмечает, что во многих задачах, включая шахматы или генерацию длинных текстов, агент получает награду только в конце эпизода. Это создает проблему распределения кредита (credit assignment): агенту сложно понять, какое именно действие из длинной цепочки привело к выигрышу или проигрышу.

Функция Q: оценка будущей награды 7:20

Для решения проблемы «отложенной награды» используется Q-функция. Она берет текущее состояние ($s$) и предлагаемое действие ($a$) и возвращает оценку — какой суммарный вознаграждение получит агент до конца эпизода, если совершит это действие и в дальнейшем будет следовать определенной стратегии (политике).

Уравнение Беллмана и обучение 19:32

Фундаментальный принцип Q-Learning основан на рекурсивном уравнении Беллмана. Суть его в том, что Q-значение для текущего состояния и действия складывается из немедленной награды за этот шаг и дисконтированного Q-значения следующего состояния.

Если мы всегда выбираем действие, максимизирующее Q-функцию, мы формируем оптимальную политику. Когда мы не знаем истинных значений Q, мы используем текущую (пусть даже неточную) оценку самой функции как цель для обучения. Постепенно, итерация за итерацией, эти оценки уточняются, приближаясь к истинным значениям.

Применение в современных нейросетях 34:19

Классический Q-Learning использовал таблицы (tabular Q-learning) для хранения значений. Однако современные задачи, такие как игры Atari, требуют нейронных сетей, так как пространство состояний (количество пикселей на экране) слишком велико.

По мнению Килчера, хотя текущие методы, такие как PPO (Proximal Policy Optimization) в RLHF, доминируют в языковом моделировании, использование Q-Learning концептуально возможно благодаря фиксированному набору выходных токенов (словарю), который можно рассматривать как пространство действий.

💬 Цитаты

«Q-функция — это функция, которая в текущем состоянии, если вы дадите ей предложенное действие, говорит вам, каким будет ваше общее вознаграждение с этого момента.»

Янник Килчер 09:10

«Мы можем свести всю проблему к оценке одного шага: вознаграждение, которое вы получаете от мира, должно каким-то образом быть разницей между тем, что Q-функция сказала вам на прошлом шаге, и тем, что она скажет на следующем.»

Янник Килчер 44:16
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Q-Learning
Алгоритм обучения с подкреплением, позволяющий агенту выучить ценность действий в различных состояниях.
Агент
Программа или сущность, которая совершает действия в среде для максимизации награды.
Уравнение Беллмана
Математическое соотношение, связывающее ценность состояния с наградой и ценностью последующего состояния.
Дисконтирующий фактор (gamma)
Коэффициент, определяющий, насколько менее ценными являются награды в будущем по сравнению с настоящим.
Experience Replay
Техника, при которой агент хранит прошлый опыт и обучается на случайных выборках из него, а не только на недавних действиях.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Q-Learning Reinforcement Learning Yannic Kilcher Bellman Equation