Эволюция учебных программ с помощью ACCEL: автоматизация обучения ИИ через regret-based design 0:00
Исследователи представили алгоритм ACCEL (Evolving Curricula with Regret-Based Environment Design), призванный решить проблему обучения агентов в сложных, процедурно генерируемых средах. Автор видео Янник Кильчер (Yannic Kilcher) подробно разбирает, как сочетание методов обучения на основе сожаления (regret-based) и эволюционных алгоритмов позволяет создавать «учебные программы» для одного агента, позволяя ему эффективно развиваться без необходимости ручного проектирования каждой стадии сложности.
💡 Концепция «зоны ближайшего развития» для ИИ 2:03
Основная проблема обучения агентов с нуля в сложных средах заключается в том, что агент часто не может получить даже минимальный положительный сигнал от среды, чтобы начать обучение.
- Проблема: Если среда слишком сложная, агент постоянно «спотыкается» на первом препятствии и никогда не доходит до фазы, где он мог бы чему-то научиться.
- Идея: Авторы предлагают использовать подход, аналогичный человеческому обучению, — «зону ближайшего развития» (Zone of Proximal Development). Суть в том, чтобы предлагать агенту задачи, находящиеся чуть за пределами его текущих возможностей.
- Учебная программа (Curriculum): Вместо хаотичных попыток обучения алгоритм постепенно увеличивает сложность уровней, ведя агента от простых плоских пространств к сложным лабиринтам и пересеченной местности.
🛠 Как работает алгоритм ACCEL 4:16
В отличие от подходов вроде POET, которые обучают целую популяцию агентов для разных сред, ACCEL тренирует одного универсального агента. Алгоритм опирается на две ключевые составляющие: генератор уровней и редактор уровней.
- Оценка через «сожаление» (Regret): Это ключевая метрика, определяющая, насколько текущая политика агента далека от оптимальной на конкретном уровне. Высокий показатель «сожаления» означает, что агент все еще может многому научиться на этом уровне.
- Буфер уровней: Это хранилище задач, которые считаются интересными (находящимися в «зоне ближайшего развития»). Алгоритм постоянно обновляет этот буфер, выбирая уровни, где агент демонстрирует «высокое сожаление».
- Эволюция и редактирование: Редактор берет существующий уровень из буфера и вносит в него небольшие изменения (добавляет или удаляет препятствия). Эволюционный метод отбирает те «потомки» уровней, которые способствуют прогрессу агента, но при этом остаются для него решаемыми.
📉 Механика расчета сожаления (Positive Value Loss) 23:02
Так как точное значение оптимальной политики вычислить невозможно, алгоритм использует аппроксимацию, называемую «потерей положительной ценности» (positive value loss).
- TD-ошибка (Temporal Difference Error): Алгоритм сравнивает предсказания агента о будущих наградах с тем, что произошло на самом деле.
- Фильтрация: Если агент систематически завышает свои возможности (ожидает высокую награду, но не получает её), это свидетельствует о сложности уровня. Применяя функцию ReLU к ошибке, алгоритм отсекает ненужные данные и оставляет только те уровни, где агент совершил ошибку в оценке своих сил.
- Результат: Уровни, на которых агент «переоценил» себя, отправляются в буфер для дальнейшего обучения.
🔬 Эксперименты и выводы 33:55
В экспериментах с лабиринтическими средами и пересеченной местностью агент, обученный через ACCEL, показывает способность к обобщению.
- Обобщение: В тестах на лабиринтах агент смог перенести навыки, полученные на сетках 16x16, на значительно более сложные поля 51x51.
- Критика автора: Янник Кильчер выражает обеспокоенность тем, что, несмотря на заявление об «отсутствии эвристик», алгоритм все же требует настройки гиперпараметров (например, порога для сожаления). Кроме того, автор отмечает риск «катастрофического забывания»: при обучении одного агента на все более сложных задачах он может разучиться решать простые уровни.
Тем не менее, Кильчер считает этот подход крайне перспективным. Он подчеркивает, что перенос сложности обучения с самого алгоритма на создание «умной» среды — это именно то направление, в котором движется современный Reinforcement Learning.