Янник Килчер: «Почему великие цели нельзя достичь прямым планированием»

Yannic Kilcher 1,3 тыс. 44 мин 4 мин 05.07.2019
Главное

В недавнем перевыпущенном интервью на канале Янника Килчера (Yannic Kilcher) автор обсуждает с Коннором Шортеном (Henry AI Labs) парадигму популяционных методов обучения и концепцию «открытого» поиска (open-ended learning). Основная идея беседы, вдохновленной материалами конференции ICML, сводится к тому, что жесткая ориентация на конкретную цель (objective-driven search) часто заводит исследователей в тупик, в то время как механизмы, поощряющие новизну и разнообразие, позволяют совершать прорывные открытия.

🧬 Популяционный поиск против градиентного спуска 1:17

Основное различие между классическим машинным обучением и популяционными методами заключается в количестве одновременно проверяемых гипотез . В то время как стандартный градиентный спуск следует по одной траектории к локальному минимуму, популяционный поиск поддерживает огромное количество потенциальных решений одновременно .

Янник Килчер приводит в пример шестиногого робота, обучающегося ходьбе:

По мнению Килчера, популяционные подходы особенно эффективны в динамических средах, где параметры задачи могут измениться после развертывания модели .

🧩 Проблема «обмана» в поиске и новизна как двигатель 6:21

Одной из центральных тем обсуждения стала концепция «обмана» (deception) в задачах оптимизации. Килчер объясняет это на примере лабиринта: если робот получает награду только за сокращение расстояния до цели, он неизбежно упрется в стену, за которой находится финиш, и не сможет развернуться, чтобы найти обходной путь .

Решением выступает Novelty Search (поиск новизны):

  1. Алгоритм вознаграждает робота не за приближение к цели, а за совершение действий, которые он никогда не делал раньше .
  2. Если робот один раз врезался в стену — это «интересно» (награда), если второй раз — это уже не новинка (награды нет) .
  3. Единственный способ продолжать получать награду в замкнутом пространстве — это обогнуть препятствие и исследовать новые зоны .

Килчер подчеркивает, что этот подход критически важен для «амбициозных целей», таких как создание общего искусственного интеллекта (AGI) или поиск лекарства от рака . Мы не можем спроектировать точную функцию вознаграждения для этих задач, так как не знаем промежуточных этапов .

🖼️ Эксперимент PicBreeder: почему великие вещи нельзя спланировать 24:48

Собеседники подробно обсудили проект PicBreeder — онлайн-инструмент, где пользователи «разводили» изображения, генерируемые нейронными сетями, выбирая наиболее интересные визуальные мутации .

Основные выводы эксперимента:

🧪 Роль мета-контроллеров и дизайна вознаграждений 31:04

Коннор Шортен поднял вопрос об автоматизации поиска новизны. Килчер считает, что это крайне сложная задача, так как сегодня именно человек выступает «мерилом интересности» в системе .

Для автоматизации процесса предлагаются следующие идеи:

Килчер проводит аналогию с пересечением туманного озера: вы не видите противоположный берег (финальную цель), но видите ближайшие камни (следующие шаги) . Разумная стратегия — выбирать самый «интересный» камень, а не пытаться прыгнуть вслепую к невидимому берегу .

🛡️ Адверсариальные атаки и безопасность беспилотников 39:51

В завершение беседы Янник поделился деталями своих текущих исследований в области состязательных примеров (adversarial examples). Это специфические искажения данных (например, шум на картинке), которые незаметны человеку, но заставляют нейросеть совершать грубые ошибки .

Обсуждая мнение Илона Маска о том, что проблему можно решить простым усреднением различных фрагментов изображения (test time augmentation), Килчер выразил скепсис :

💬 Цитаты

«Если ваша цель действительно амбициозна, то мета-контроллер, который просто хочет достичь цели — это плохо.»

Янник Килчер 36:48

«Ступени для создания автомобиля могут не иметь ничего общего с автомобилями.»

Янник Килчер 28:07
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Gradient Descent
Алгоритм оптимизации, который пошагово изменяет параметры модели, чтобы минимизировать ошибку.
Adversarial Examples
Входные данные, специально измененные так, чтобы вызвать ошибку в модели машинного обучения при сохранении их естественного вида для человека.
MAP-Elites
Алгоритм, который ищет максимально разнообразные и качественные решения, распределяя их по категориям в многомерной сетке.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher MAP-Elites PicBreeder Novelty Search Adversarial Examples