ACCEL: как ИИ самостоятельно создает себе учебную программу

Yannic Kilcher 10,6 тыс. 44 мин 3 мин 25.04.2022
Главное

Эволюция учебных программ с помощью ACCEL: автоматизация обучения ИИ через regret-based design 0:00

Исследователи представили алгоритм ACCEL (Evolving Curricula with Regret-Based Environment Design), призванный решить проблему обучения агентов в сложных, процедурно генерируемых средах. Автор видео Янник Кильчер (Yannic Kilcher) подробно разбирает, как сочетание методов обучения на основе сожаления (regret-based) и эволюционных алгоритмов позволяет создавать «учебные программы» для одного агента, позволяя ему эффективно развиваться без необходимости ручного проектирования каждой стадии сложности.

💡 Концепция «зоны ближайшего развития» для ИИ 2:03

Основная проблема обучения агентов с нуля в сложных средах заключается в том, что агент часто не может получить даже минимальный положительный сигнал от среды, чтобы начать обучение.

🛠 Как работает алгоритм ACCEL 4:16

В отличие от подходов вроде POET, которые обучают целую популяцию агентов для разных сред, ACCEL тренирует одного универсального агента. Алгоритм опирается на две ключевые составляющие: генератор уровней и редактор уровней.

  1. Оценка через «сожаление» (Regret): Это ключевая метрика, определяющая, насколько текущая политика агента далека от оптимальной на конкретном уровне. Высокий показатель «сожаления» означает, что агент все еще может многому научиться на этом уровне.
  2. Буфер уровней: Это хранилище задач, которые считаются интересными (находящимися в «зоне ближайшего развития»). Алгоритм постоянно обновляет этот буфер, выбирая уровни, где агент демонстрирует «высокое сожаление».
  3. Эволюция и редактирование: Редактор берет существующий уровень из буфера и вносит в него небольшие изменения (добавляет или удаляет препятствия). Эволюционный метод отбирает те «потомки» уровней, которые способствуют прогрессу агента, но при этом остаются для него решаемыми.

📉 Механика расчета сожаления (Positive Value Loss) 23:02

Так как точное значение оптимальной политики вычислить невозможно, алгоритм использует аппроксимацию, называемую «потерей положительной ценности» (positive value loss).

🔬 Эксперименты и выводы 33:55

В экспериментах с лабиринтическими средами и пересеченной местностью агент, обученный через ACCEL, показывает способность к обобщению.

Тем не менее, Кильчер считает этот подход крайне перспективным. Он подчеркивает, что перенос сложности обучения с самого алгоритма на создание «умной» среды — это именно то направление, в котором движется современный Reinforcement Learning.

💬 Цитаты

«Это не очень отличается от того, как учатся люди: вы хотите тренироваться в зоне ближайшего развития.»

Янник Кильчер 03:22

«Мы переносим ответственность с алгоритма агента на алгоритм создания среды.»

Янник Кильчер 43:24
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Регет (Regret)
Разница между тем, чего агент мог бы достичь в идеале, и тем, что он получил на самом деле.
TD-ошибка
Разница между предсказанной ценностью состояния и фактически полученным результатом.
Зона ближайшего развития
Уровень задач, которые чуть сложнее текущих навыков, что максимизирует темп обучения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект ACCEL Reinforcement Learning Yannic Kilcher Curriculum Learning