Янник Килчер о RepNet: как нейросети считают повторы в видео

Yannic Kilcher 10,5 тыс. 36 мин 2 мин 23.06.2020
Главное

RepNet: Как нейросети учатся распознавать и считать повторяющиеся действия 0:00

Исследователи из Google Research и DeepMind представили модель RepNet, способную обнаруживать и подсчитывать повторяющиеся действия в видео в «диких» условиях. Основная сложность этой задачи заключается в том, что повторяющиеся движения в реальной жизни могут различаться по длительности, темпу и визуальному оформлению. По мнению ведущего канала Янника Килчера, данный подход является отличным примером того, как грамотная архитектура нейронной сети позволяет достичь высокой производительности без простого увеличения вычислительных мощностей.

Архитектурное решение: Матрицы временного самоподобия 11:15

Сердцем архитектуры RepNet является матрица временного самоподобия (Temporal Self-Similarity Matrix). Процесс работы модели можно разделить на несколько ключевых этапов:

Обучение и предсказания 21:49

Для обработки матрицы авторы используют трансформерные слои, работающие на покадровой основе. После этапа shared-обработки модель выдает два типа предсказаний:

  1. Бинарная периодичность: Определяет, совершается ли в данном кадре повторяющееся действие.
  2. Оценка периода: Указывает длину периода повторения для каждого кадра.

Янник Килчер отмечает, что выбор трансформера вместо сверточной сети для этой задачи оправдан: механизм внимания позволяет модели в один шаг сопоставить различные пики активности в последовательности, что значительно эффективнее с точки зрения архитектурной логики.

Работа с данными и синтетический подход 26:32

Одной из главных проблем при разработке подобных систем является отсутствие адекватных датасетов. Авторы решили эту задачу двумя способами:

Перспективы и выводы 33:38

Помимо основной задачи — счета повторений, RepNet демонстрирует возможности в смежных областях:

Янник Килчер предполагает, что подобные механизмы распознавания ритма могут стать фундаментальным компонентом будущих систем искусственного интеллекта, так как способность к счету является одной из базовых врожденных черт человеческого интеллекта.

💬 Цитаты

«Это отличный пример того, что в эпоху глубокого обучения все еще можно достичь многого за счет умного построения архитектуры самой нейронной сети.»

Янник Килчер 04:30

«Я почти больше заинтересован в подобных экспериментах, чем в самих цифрах, потому что цифры всегда можно «накрутить», просто добавив больше мощностей.»

Янник Килчер 33:14
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Матрица временного самоподобия
Инструмент визуализации, где каждая точка показывает, насколько текущий кадр похож на другой кадр видео.
3D-свертка
Операция, при которой фильтр скользит не только по высоте и ширине изображения, но и по оси времени (глубине), учитывая соседние кадры.
Трансформер
Архитектура нейронных сетей, основанная на механизме внимания, позволяющая эффективно находить связи внутри последовательностей данных.
Абляция (ablations)
Метод анализа модели путем удаления отдельных её компонентов для проверки их влияния на результат.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RepNet Yannic Kilcher DeepMind Google Research компьютерное зрение