Янник Килхер: «Perceiver — это новый этап эволюции трансформеров»

Yannic Kilcher 59,8 тыс. 29 мин 3 мин 22.03.2021
Главное

Революция восприятия данных: как Perceiver меняет архитектуру нейросетей 0:00

Исследователи из Google DeepMind представили модель Perceiver, предлагающую новый подход к архитектуре нейронных сетей, который позволяет эффективно работать с различными типами данных — изображениями, видео, аудио и 3D-облаками точек,. В основе идеи лежит отказ от специфических для конкретных модальностей архитектурных ограничений, таких как использование сверток (convnets) в компьютерном зрении. Янник Килхер отмечает, что модель делает важный шаг к созданию более глубоких архитектур трансформеров, сохраняя при этом возможность обработки сотен тысяч входных элементов без вычислительной перегрузки,.

🧩 Проблема «квадратичного узкого места» трансформеров 5:07

Классические трансформеры при обработке длинных последовательностей данных сталкиваются с проблемой высокой вычислительной сложности и потребления памяти.

💡 Как работает Perceiver: итеративное внимание 7:12

Ключевая инновация авторов заключается в разделении входных данных и скрытого состояния модели через механизм перекрестного внимания (cross-attention).

  1. Латентный массив: В отличие от стандартных трансформеров, где данные «смешиваются» в процессе внимания, Perceiver использует фиксированный латентный массив небольшого размера $n$.
  2. Сжатие информации: При перекрестном внимании данные (изображение или аудио) поступают в модель, но трансформируются не в последовательность той же длины, а в короткое латентное состояние.
  3. Итеративный процесс: Изображение подается в стек слоев несколько раз, при этом веса могут быть общими, что концептуально делает модель схожей с рекуррентной нейронной сетью (RNN),.
  4. Оптимизация: Поскольку размерность $n$ латентного состояния невелика (около 500–1000 элементов), вычисления внутри «латентного трансформера» становятся эффективными, позволяя обходить квадратичное ограничение.

🔄 Позиционное кодирование через Фурье-признаки 19:04

Поскольку архитектура Perceiver не делает предположений о структуре данных (например, о том, что пиксели соседствуют друг с другом), она инвариантна к порядку входных данных. Для того чтобы модель могла учитывать пространственную или временную информацию, исследователи внедрили позиционное кодирование.

🔬 Результаты экспериментов и критика 23:20

По словам Килхера, в области компьютерного зрения модель показывает результаты на уровне архитектуры ResNet-50, не используя при этом никаких априорных знаний о том, что входные данные являются именно изображением.

Однако Янник Килхер выражает скепсис относительно интерпретируемости карт внимания. Он отмечает, что на визуализациях карт внимания во внутренних слоях заметны повторяющиеся сеточные структуры. По мнению Килхера, возникает вопрос: насколько эти карты зависят от конкретного входного изображения, а насколько они являются просто выученными «общими» паттернами обработки.

💬 Цитаты

«Это pretty big step towards first of all making transformers more deep and second of all applying the same models to very very different modalities of data.»

Янник Килхер 01:23

«The queries essentially say what kind of things I would like to know of the incoming data and the keys are say for each pixel in the data say what kind of things that particular pixel offers to the model.»

Янник Килхер 15:28
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Cross-attention
Механизм внимания, при котором один набор данных (запросы) взаимодействует с другим набором (ключи и значения).
Self-attention
Механизм, позволяющий модели сопоставлять элементы внутри одной и той же последовательности данных.
Абляция (Ablation study)
Метод исследования модели, при котором последовательно удаляются или изменяются её компоненты для оценки их вклада в итоговый результат.
Индуктивные смещения (Inductive biases)
Предположения, заложенные в модель, которые помогают ей лучше обучаться на данных определенного типа.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Perceiver Google DeepMind Transformers Cross-attention Deep Learning