# Янник Кильхер о BiT: «Универсальный старт для любой визуальной задачи»

Источник: https://www.youtube.com/watch?v=k1GOF2jmX7c
Канал: Yannic Kilcher
Опубликовано: 09.05.2020

---

# Big Transfer (BiT): новая эра универсального обучения визуальным представлениям

В видеообзоре ведущий Янник Кильхер (Yannic Kilcher) анализирует исследовательскую работу Google Brain, посвященную методологии Big Transfer (BiT). Ключевая идея BiT заключается в создании универсальных предобученных моделей, которые могут служить эффективной отправной точкой для решения широкого спектра визуальных задач, даже при ограниченном объеме данных.

## 🧠 Концепция трансферного обучения
[[JUMP:0:27]]

В компьютерном зрении доминируют сверточные нейронные сети (CNN), в частности, residual networks. Однако для их качественного обучения традиционно требовались огромные массивы размеченных данных. В специфических областях, таких как медицина, доступные наборы данных зачастую слишком малы.

Янник Кильхер отмечает, что трансферное обучение предлагает решение проблемы дефицита данных:

*   **Предварительное обучение (Pre-training):** Модель тренируется на колоссальном наборе данных (например, ImageNet).
*   **Тонкая настройка (Fine-tuning):** Полученная модель адаптируется к целевой задаче с малым количеством данных.

По словам ведущего, целью BiT является создание единого универсального «отправного пункта», подобного моделям семейства BERT в NLP, чтобы разработчикам не приходилось тренировать визуальные модели с нуля.

## 🏗 Архитектура и методология обучения
[[JUMP:5:00]]

Исследователи Google представили три варианта архитектуры BiT (small, medium, large), основанных на стандартной структуре ResNet-152, масштабированной по ширине.

*   **Small:** Обучена на классическом ImageNet (1,3 млн изображений).
*   **Medium:** Обучена на наборе ImageNet-21k (14 млн изображений).
*   **Large (L):** Обучена на гигантском внутреннем датасете (300 млн изображений).

Янник Кильхер подчеркивает, что секрет успеха BiT заключается в двух компонентах:

1.  **Масштаб (Scale):** Эффективность достигается только при одновременном увеличении объема данных и количества параметров модели. Использование большого датасета при малом размере модели может привести к деградации результатов.
2.  **Техники нормализации:** Вместо классического Batch Normalization, который требует больших затрат на синхронизацию между множеством TPU, авторы используют комбинацию **Group Normalization** и **Weight Standardization**. Это позволяет нормализовать параметры на уровне каждого отдельного образца, не замедляя процесс обучения.

## 📈 Результаты и производительность
[[JUMP:8:05]]

В режиме малого количества размеченных данных (например, всего 5-10 примеров на класс) модели BiT демонстрируют впечатляющую точность, значительно превосходя базовые модели, обученные только на ImageNet.

При этом Янник Кильхер делает важное уточнение:

*   Модели BiT показывают отличные результаты на «естественных» изображениях, подобных тем, что встречаются в интернете.
*   На специализированных или структурированных задачах (например, логический анализ объектов на сцене) прирост производительности менее выражен.
*   Авторы исследования намеренно удаляли из обучающей выборки точные дубликаты изображений из тестовых наборов, чтобы избежать «зазубривания» данных, однако ведущий называет это предосторожностью, которая не исключает полностью риски пересечения данных.

## 🧪 Уроки для практиков и будущее исследований
[[JUMP:27:35]]

Обсуждая анализ ошибок и стратегии обучения, ведущий приходит к выводу, что исследование BiT наглядно показывает уход лидерства в области компьютерного зрения из академической среды в сторону крупных технологических корпораций.

*   **Вычислительный бюджет:** Для достижения SOTA-результатов (State-of-the-Art) необходимо инвестировать огромные вычислительные мощности и время. Исследователи критикуют подходы, где обучение прекращается слишком рано (например, после 8 GPU-недель), утверждая, что для сходимости могут требоваться месяцы непрерывных вычислений.
*   **Качество данных:** Анализ ошибок на наборах типа CIFAR-10 показал, что модель часто «ошибается» именно там, где неверна сама разметка датасета (например, классифицирует изображение как «корабль», в то время как в метке указана «кошка»).

Янник Кильхер заключает, что, несмотря на «странности» некоторых данных в ImageNet-21k, BiT станет мощным инструментом для практикующих инженеров, позволяя запускать визуальные проекты с гораздо более высокой точностью «из коробки».