Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»

Основы обучения с подкреплением: Что такое Q-Learning? 0:00

Янник Килчер (Yannic Kilcher) в своем обзоре базовых принципов обучения с подкреплением (Reinforcement Learning) подробно разбирает концепцию Q-Learning, которая вновь стала актуальной на фоне спекуляций вокруг алгоритма Q от OpenAI. Хотя Q может оказаться чем-то совершенно иным, понимание основ Q-Learning помогает осознать, как ИИ-агенты могут принимать долгосрочные решения, ориентируясь на награды.

Цикл обучения с подкреплением 1:05

В основе обучения с подкреплением лежит взаимодействие агента с окружающей средой. Этот процесс можно представить как циклический обмен:

Наблюдение (Observation/State): Агент получает состояние среды (например, расположение фигур на шахматной доске).
Действие (Action): На основе полученных данных агент выполняет действие.
Награда (Reward): Среда возвращает агенту показатель того, насколько полезным было действие, и новое состояние.

Килчер отмечает, что во многих задачах, включая шахматы или генерацию длинных текстов, агент получает награду только в конце эпизода. Это создает проблему распределения кредита (credit assignment): агенту сложно понять, какое именно действие из длинной цепочки привело к выигрышу или проигрышу.

Функция Q: оценка будущей награды 7:20

Для решения проблемы «отложенной награды» используется Q-функция. Она берет текущее состояние ($s$) и предлагаемое действие ($a$) и возвращает оценку — какой суммарный вознаграждение получит агент до конца эпизода, если совершит это действие и в дальнейшем будет следовать определенной стратегии (политике).

Политика ($\pi$): Функция, которая в каждом состоянии говорит агенту, какое действие предпринять.
Q-функция ($Q_\pi(s, a)$): Оценка действий при условии следования стратегии $\pi$ после текущего шага.
Дисконтирующий фактор ($\gamma$): Параметр, который снижает значимость будущих наград по сравнению с немедленными. Это делает задачу математически стабильной и отражает человеческую интуицию о том, что «синица в руках лучше журавля в небе».

Уравнение Беллмана и обучение 19:32

Фундаментальный принцип Q-Learning основан на рекурсивном уравнении Беллмана. Суть его в том, что Q-значение для текущего состояния и действия складывается из немедленной награды за этот шаг и дисконтированного Q-значения следующего состояния.

Если мы всегда выбираем действие, максимизирующее Q-функцию, мы формируем оптимальную политику. Когда мы не знаем истинных значений Q, мы используем текущую (пусть даже неточную) оценку самой функции как цель для обучения. Постепенно, итерация за итерацией, эти оценки уточняются, приближаясь к истинным значениям.

Применение в современных нейросетях 34:19

Классический Q-Learning использовал таблицы (tabular Q-learning) для хранения значений. Однако современные задачи, такие как игры Atari, требуют нейронных сетей, так как пространство состояний (количество пикселей на экране) слишком велико.

Нейронная сеть: Принимает состояние на вход и выдает предсказания Q-значений для всех возможных действий.
Experience Replay (опыт повтора): Важный прием из статьи DeepMind, где агент сохраняет переходы (состояние, действие, награда, следующее состояние) в буфер и обучается на случайных выборках из него, а не только на текущих действиях. Это значительно повышает стабильность обучения.

По мнению Килчера, хотя текущие методы, такие как PPO (Proximal Policy Optimization) в RLHF, доминируют в языковом моделировании, использование Q-Learning концептуально возможно благодаря фиксированному набору выходных токенов (словарю), который можно рассматривать как пространство действий.