ACCEL: как ИИ самостоятельно создает себе учебную программу

Эволюция учебных программ с помощью ACCEL: автоматизация обучения ИИ через regret-based design 0:00

Исследователи представили алгоритм ACCEL (Evolving Curricula with Regret-Based Environment Design), призванный решить проблему обучения агентов в сложных, процедурно генерируемых средах. Автор видео Янник Кильчер (Yannic Kilcher) подробно разбирает, как сочетание методов обучения на основе сожаления (regret-based) и эволюционных алгоритмов позволяет создавать «учебные программы» для одного агента, позволяя ему эффективно развиваться без необходимости ручного проектирования каждой стадии сложности.

💡 Концепция «зоны ближайшего развития» для ИИ 2:03

Основная проблема обучения агентов с нуля в сложных средах заключается в том, что агент часто не может получить даже минимальный положительный сигнал от среды, чтобы начать обучение.

Проблема: Если среда слишком сложная, агент постоянно «спотыкается» на первом препятствии и никогда не доходит до фазы, где он мог бы чему-то научиться.
Идея: Авторы предлагают использовать подход, аналогичный человеческому обучению, — «зону ближайшего развития» (Zone of Proximal Development). Суть в том, чтобы предлагать агенту задачи, находящиеся чуть за пределами его текущих возможностей.
Учебная программа (Curriculum): Вместо хаотичных попыток обучения алгоритм постепенно увеличивает сложность уровней, ведя агента от простых плоских пространств к сложным лабиринтам и пересеченной местности.

🛠 Как работает алгоритм ACCEL 4:16

В отличие от подходов вроде POET, которые обучают целую популяцию агентов для разных сред, ACCEL тренирует одного универсального агента. Алгоритм опирается на две ключевые составляющие: генератор уровней и редактор уровней.

Оценка через «сожаление» (Regret): Это ключевая метрика, определяющая, насколько текущая политика агента далека от оптимальной на конкретном уровне. Высокий показатель «сожаления» означает, что агент все еще может многому научиться на этом уровне.
Буфер уровней: Это хранилище задач, которые считаются интересными (находящимися в «зоне ближайшего развития»). Алгоритм постоянно обновляет этот буфер, выбирая уровни, где агент демонстрирует «высокое сожаление».
Эволюция и редактирование: Редактор берет существующий уровень из буфера и вносит в него небольшие изменения (добавляет или удаляет препятствия). Эволюционный метод отбирает те «потомки» уровней, которые способствуют прогрессу агента, но при этом остаются для него решаемыми.

📉 Механика расчета сожаления (Positive Value Loss) 23:02

Так как точное значение оптимальной политики вычислить невозможно, алгоритм использует аппроксимацию, называемую «потерей положительной ценности» (positive value loss).

TD-ошибка (Temporal Difference Error): Алгоритм сравнивает предсказания агента о будущих наградах с тем, что произошло на самом деле.
Фильтрация: Если агент систематически завышает свои возможности (ожидает высокую награду, но не получает её), это свидетельствует о сложности уровня. Применяя функцию ReLU к ошибке, алгоритм отсекает ненужные данные и оставляет только те уровни, где агент совершил ошибку в оценке своих сил.
Результат: Уровни, на которых агент «переоценил» себя, отправляются в буфер для дальнейшего обучения.

🔬 Эксперименты и выводы 33:55

В экспериментах с лабиринтическими средами и пересеченной местностью агент, обученный через ACCEL, показывает способность к обобщению.

Обобщение: В тестах на лабиринтах агент смог перенести навыки, полученные на сетках 16x16, на значительно более сложные поля 51x51.
Критика автора: Янник Кильчер выражает обеспокоенность тем, что, несмотря на заявление об «отсутствии эвристик», алгоритм все же требует настройки гиперпараметров (например, порога для сожаления). Кроме того, автор отмечает риск «катастрофического забывания»: при обучении одного агента на все более сложных задачах он может разучиться решать простые уровни.

Тем не менее, Кильчер считает этот подход крайне перспективным. Он подчеркивает, что перенос сложности обучения с самого алгоритма на создание «умной» среды — это именно то направление, в котором движется современный Reinforcement Learning.