Янник Кильхер о BiT: «Универсальный старт для любой визуальной задачи»

Yannic Kilcher 10,6 тыс. 34 мин 3 мин 09.05.2020
Главное

Big Transfer (BiT): новая эра универсального обучения визуальным представлениям

В видеообзоре ведущий Янник Кильхер (Yannic Kilcher) анализирует исследовательскую работу Google Brain, посвященную методологии Big Transfer (BiT). Ключевая идея BiT заключается в создании универсальных предобученных моделей, которые могут служить эффективной отправной точкой для решения широкого спектра визуальных задач, даже при ограниченном объеме данных.

🧠 Концепция трансферного обучения 0:27

В компьютерном зрении доминируют сверточные нейронные сети (CNN), в частности, residual networks. Однако для их качественного обучения традиционно требовались огромные массивы размеченных данных. В специфических областях, таких как медицина, доступные наборы данных зачастую слишком малы.

Янник Кильхер отмечает, что трансферное обучение предлагает решение проблемы дефицита данных:

По словам ведущего, целью BiT является создание единого универсального «отправного пункта», подобного моделям семейства BERT в NLP, чтобы разработчикам не приходилось тренировать визуальные модели с нуля.

🏗 Архитектура и методология обучения 5:00

Исследователи Google представили три варианта архитектуры BiT (small, medium, large), основанных на стандартной структуре ResNet-152, масштабированной по ширине.

Янник Кильхер подчеркивает, что секрет успеха BiT заключается в двух компонентах:

  1. Масштаб (Scale): Эффективность достигается только при одновременном увеличении объема данных и количества параметров модели. Использование большого датасета при малом размере модели может привести к деградации результатов.
  2. Техники нормализации: Вместо классического Batch Normalization, который требует больших затрат на синхронизацию между множеством TPU, авторы используют комбинацию Group Normalization и Weight Standardization. Это позволяет нормализовать параметры на уровне каждого отдельного образца, не замедляя процесс обучения.

📈 Результаты и производительность 8:05

В режиме малого количества размеченных данных (например, всего 5-10 примеров на класс) модели BiT демонстрируют впечатляющую точность, значительно превосходя базовые модели, обученные только на ImageNet.

При этом Янник Кильхер делает важное уточнение:

🧪 Уроки для практиков и будущее исследований 27:35

Обсуждая анализ ошибок и стратегии обучения, ведущий приходит к выводу, что исследование BiT наглядно показывает уход лидерства в области компьютерного зрения из академической среды в сторону крупных технологических корпораций.

Янник Кильхер заключает, что, несмотря на «странности» некоторых данных в ImageNet-21k, BiT станет мощным инструментом для практикующих инженеров, позволяя запускать визуальные проекты с гораздо более высокой точностью «из коробки».

💬 Цитаты

«Визуальное state-of-the-art исследование теперь официально вне досягаемости академических институтов.»

Янник Кильхер 30:54

«Масштабирование данных без масштабирования модели — не самая эффективная стратегия.»

Янник Кильхер 12:03
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Трансферное обучение
Метод, при котором модель, обученная на одной задаче, используется в качестве основы для решения другой задачи.
Fine-tuning
Процесс тонкой настройки уже предобученной нейросети на специфический набор данных.
Batch Normalization
Метод нормализации промежуточных слоев нейросети, зависящий от размера обрабатываемого пакета данных.
Double Descent (двойной спуск)
Явление, при котором при увеличении параметров модели ошибка сначала растет, но затем снова начинает падать.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Big Transfer Google Brain Transfer Learning Yannic Kilcher ResNet