# Янник Кильхер о ConvNeXt: «Сверточные сети возвращают себе славу»

Источник: https://www.youtube.com/watch?v=yVKiMh2vEWQ
Канал: Yannic Kilcher
Опубликовано: 25.01.2022

---

В новом выпуске ML News ведущий Янник Кильхер разбирает громкий камбэк сверточных нейросетей с архитектурой ConvNeXt, которая бросает вызов доминированию трансформеров в компьютерном зрении. Также в центре внимания — новые жесткие правила регулирования рекомендательных алгоритмов в Китае, критический разбор исследования «мужского взгляда» в алгоритмах обрезки фото и запуск гипермодальной модели rudolph от Sber AI.

## 🚀 Реванш сверточных сетей: Meta представляет ConvNeXt
[[JUMP:00:25]]

Исследователи из Meta (бывшая Facebook Research) опубликовали работу под названием «A ConvNet for the 2020s», в которой оспаривают мнение о том, что трансформеры полностью вытеснили сверточные сети (convnets) в задачах компьютерного зрения [00:25]. Авторы утверждают, что превосходство архитектур типа Vision Transformer (ViT) обусловлено не столько механизмом внимания, сколько набором мелких архитектурных улучшений и методик обучения.

В ходе исследования архитектура классического ResNet была систематически модернизирована с применением лучших практик из трансформеров. Результатом стала сеть ConvNeXt, которая показывает результаты на уровне или выше Vision Transformers на датасетах ImageNet-1K и ImageNet-22K [00:53].

Однако в сообществе эта работа вызвала дискуссии:

*   Лукас Байер отметил, что при правильном обучении ViT с использованием современных аугментаций преимущество ConvNeXt становится минимальным [01:21].
*   Росс Уайтман, создатель библиотеки `timm`, указал, что если «правильно» обучить стандартный ResNet, его точность поднимется до отметки 82%, что приближает его к младшим версиям ConvNeXt [01:34].
*   Миншин Тан дополнил сравнение данными модели EfficientNet v2, которая по-прежнему сохраняет конкурентоспособность на ImageNet [02:00].

По мнению Янника Кильхера, гонка архитектур в компьютерном зрении все еще открыта. Ведущий полагает, что результат может зависеть не от фундаментальных инноваций, а от количества параметров и правильности реализации стандартных приемов, либо же «ультимативная» архитектура зрения еще просто не найдена [02:26].

## 📸 Алгоритмы обрезки фото и «мужской взгляд»: критика методологии
[[JUMP:02:53]]

Янник Кильхер разобрал исследование «Auditing saliency cropping algorithms», посвященное алгоритмам автоматической обрезки изображений в Twitter, Google и Apple [02:53]. Эти системы определяют наиболее значимые (салиентные) области фото, чтобы подогнать их под формат ленты новостей. 

Ранее алгоритмы Twitter критиковали за предвзятость: пользователи утверждали, что нейросети отдают предпочтение светлым тонам кожи и якобы фокусируются на телах женщин, игнорируя лица. Авторы статьи решили проверить гипотезу о «мужском взгляде» (male gaze) — концепции, согласно которой продукты и медиа создаются с позиции мужского восприятия, объективирующего женщин [04:25].

Основные выводы и критика исследования:

*   Исследователи собрали датасет с фотографиями женщин на красных дорожках и подиумах [05:19].
*   Выяснилось, что когда алгоритм не фокусировался на лице, он чаще всего выбирал корпоративные логотипы на заднем плане, которые находились не на уровне головы [05:44].
*   Несмотря на то, что прямой связи с «объективацией» обнаружено не было, авторы статьи назвали эти артефакты «эффектами, подобными мужскому взгляду» (male gaze-like effects) [06:23].

По мнению Янника Кильхера, авторы статьи были изначально настроены найти подтверждение своей идеологической гипотезе [06:50]. Он утверждает, что если бы данные не позволили сделать такие выводы, авторы могли бы «спрятаться» за методологией, а при продвижении работы в соцсетях использовать громкие заголовки. Янник Кильхер считает такой подход политически мотивированным и подчеркивает, что если бы алгоритм действительно фокусировался на интимных частях тела, тон статьи был бы совершенно иным [09:02].

## 🇨🇳 Китай против алгоритмической зависимости: новые правила для IT-гигантов
[[JUMP:11:42]]

В Китае вступили в силу новые правила регулирования алгоритмов рекомендаций, которые напрямую затрагивают бизнес-модели техгигантов [11:42]. Согласно документу, поставщики алгоритмов обязаны:

*   Проактивно распространять «положительную энергию» [11:55].
*   Предотвращать чрезмерные траты пользователей и бороться с развитием игровой или контентной зависимости [12:09].
*   Предоставить пользователям возможность полностью отказаться от рекомендательных сервисов (opt-out) [12:21].

Янник Кильхер отмечает, что хотя некоторые эксперты считают влияние этих правил ограниченным (поскольку функция отключения может быть запрятана глубоко в настройках), само наличие выбора — позитивный шаг [12:34]. По словам ведущего, он предпочел бы иметь возможность отключить алгоритм в меню, чем постоянно сталкиваться с раздражающими баннерами о приеме cookie-файлов на каждом сайте [12:46].

## 🗣 Технологии синтеза: голос на любом языке и оцифровка музыки
[[JUMP:09:40]]

В блоке технических новинок Янник Кильхер выделил два проекта:

1.  **yourTTS**: система Text-to-Speech с возможностью zero-shot обучения. Она позволяет переносить голос говорящего на другие языки, на которых он не разговаривает [09:40]. Ведущий продемонстрировал работу модели, синтезировав свою речь на французском языке, и отметил высокое качество и скорость работы [10:28].
2.  **MT3**: проект от Google Magenta для многозадачной транскрипции музыки [10:44]. Система способна преобразовывать аудиозапись с несколькими инструментами в многодорожечный MIDI-файл. Хотя звучание MIDI отличается от оригинала, модель успешно разделяет параллельные треки разных инструментов [11:16].

## 🛠 Инструментарий ML-инженера и образовательные ресурсы
[[JUMP:12:58]]

Янник Кильхер представил подборку полезных ресурсов для сообщества:

*   **Deep Learning Interviews**: книга (PDF на 360+ страниц) с сотнями решенных задач для подготовки к собеседованиям в области ИИ [13:11].
*   **Deepchecks**: фреймворк для юнит-тестирования моделей машинного обучения и проверки данных [13:51].
*   **DagsHub**: платформа для версионирования данных, моделей и экспериментов, предлагающая опыт, схожий с GitHub, включая интеграцию разметки данных [14:05].
*   **Rumble**: open-source база данных на базе Apache Spark для эффективной обработки неоднородных JSON-данных с помощью специального языка запросов [15:10].
*   **JAX Models**: неофициальный репозиторий с реализациями глубокого обучения на JAX [15:36].

## 🤖 Гипермодальный трансформер rudolph от Sber AI
[[JUMP:16:44]]

Команда Sber AI представила модель **rudolph** (Hyper-modal Transformer) [16:44]. В отличие от классических мультимодальных систем, rudolph включает в себя сразу несколько компонентов:

1.  Генерация изображения по тексту (аналог DALL-E).
2.  Генерация текста по изображению (image-to-text).

Благодаря такой структуре модель способна выполнять задачи визуального ответа на вопросы (VQA), абстрактного логического рассуждения и проверки совместимости изображений и текста (как CLIP) [17:10]. Для токенизации изображений используется VQGAN, после чего данные обрабатываются как последовательность токенов. Код и веса компактных версий модели уже доступны в открытом доступе [17:36].

Завершая выпуск, Янник упомянул годовой отчет Джеффа Дина из Google Research, где выделены 5 ключевых трендов ИИ 2021 года, включая создание более эффективных и универсальных моделей общего назначения [17:51].