Лид: В рамках подкаста The TWIML AI Podcast исследователь Христос Луизос (Christos Louizos) из Qualcomm AI Research представил инновационный метод оптимизации гиперпараметров через партиционирование (разделение) нейронных сетей. Разработка направлена на решение критических проблем федеративного обучения: высокого расхода трафика, энергопотребления и истощения «бюджета приватности» при многократных итерациях обучения на мобильных устройствах.
🧠 Эффективность федеративного обучения: проблема ресурсов и приватности 4:00
Традиционные методы оптимизации гиперпараметров, такие как случайный поиск (random search) или поиск по сетке (grid search), требуют многократного повторения процесса обучения . В условиях классического машинного обучения это допустимо, однако для федеративного обучения (Federated Learning) на периферийных устройствах (Edge devices) такой подход неприемлем по нескольким причинам:
- Коммуникационные затраты: Постоянная передача обновлений модели между сервером и миллионами устройств перегружает сеть.
- Энергопотребление: Процесс обучения быстро расходует заряд батареи мобильных устройств .
- Бюджет приватности: По словам Христоса Луизоса, каждое взаимодействие устройства с сервером потенциально раскрывает часть информации о локальных данных. Многократное повторение циклов обучения приводит к исчерпанию «бюджета приватности» (privacy budget) в рамках механизмов дифференциальной приватности .
🧩 Механизм партиционирования нейронной сети 8:00
Предложенный Христосом Луизосом метод опирается на концепцию предельного правдоподобия (marginal likelihood). Основная идея заключается в том, что оптимальные гиперпараметры позволяют модели обучаться максимально быстро и эффективно обобщать знания .
Алгоритм работает следующим образом:
- Разделение данных и модели: Набор данных и нейронная сеть делятся на $K$ непересекающихся частей (партиций) .
- Формирование подсетей: Подсети $(\text{sub-networks})$ определяются случайным выбором подмножества параметров для каждого слоя .
- Иерархическая структура: Подсети организованы по принципу матрешки. Первая подсеть обучается на первом фрагменте данных. Вторая подсеть является надмножеством первой и обучается на втором фрагменте, сохраняя информацию о первом . Последняя, $K$-я подсеть, представляет собой полную модель, обученную на всём наборе данных .
- Валидация «внутри» цикла: Части данных, которые не видела конкретная подсеть, используются как валидационные для оценки способности к обобщению. Этот сигнал используется для корректировки гиперпараметров прямо в процессе одного цикла обучения .
В ходе экспериментов было установлено, что инициализация неиспользуемых параметров случайными значениями работает лучше, чем их обнуление (sparsity) . Хотя разреженность была бы выгоднее для энергоэффективности, эмпирические данные показали преимущество стандартной случайной инициализации.
📊 Результаты и бенчмарки на наборах данных Vision 16:00
Для проверки эффективности алгоритма использовались стандартные наборы данных для компьютерного зрения: CIFAR-10, Tiny ImageNet и варианты MNIST .
Особое внимание уделили оптимизации гиперпараметров аффинных аугментаций (вращение, сдвиг). В эксперименте с Rotated CIFAR-10 (где изображения были предварительно повернуты) модель должна была самостоятельно «найти» правильный угол поворота как гиперпараметр, чтобы восстановить точность .
Ключевые выводы:
- Точность модели с использованием новой техники (показатель B) оказалась выше, чем у базовой модели без оптимизации аугментаций (показатель A) .
- Совокупные коммуникационные затраты снизились, так как клиенты передавали обновления только для своих подсетей и градиенты для небольшого числа гиперпараметров .
- Оптимальное количество партиций ($K$) в тестах варьировалось от 2 до 4, при этом метод показал устойчивость к изменению этого параметра .
🛰️ Обзор других исследований Qualcomm на ICLR 26:31
Христос Луизос также кратко осветил другие работы коллег, принятые на конференцию ICLR:
- Статистика в Batch Normalization (TTN): Исследование адаптации модели в тестовое время. Метод позволяет интерполировать статистику (среднее и дисперсию) между «чистыми» тренировочными данными и смещенными (corrupted) данными в реальных условиях, что делает модель устойчивее к изменению сенсоров или условий съемки .
- Планирование (Scheduling): Две работы посвящены оптимизации вычислений. Neural DAG Scheduling использует приоритетную выборку для управления графами вычислений, а метод с применением G-Flow Nets помогает выбирать эффективные графики выполнения операций, когда прямая оценка стоимости слишком дорога (например, при обучении моделей с триллионами параметров) .
- Composite Slice Transformer: Метод ускорения механизма внимания (attention), который обычно масштабируется квадратично. За счет разделения на локальное и глобальное внимание («слайсы») удалось добиться линейного масштабирования без потери точности .
- Wireless Network Ray Tracing (WinRT): Применение трассировки лучей и NeRF (нейронных полей сияния) для моделирования распространения радиосигнала внутри помещений. Это позволяет, например, локализовать пользователя в пространстве с высокой точностью .
🔮 Будущее федеративного обучения 38:44
В завершение беседы Христос Луизос выделил два главных вызова для индустрии:
- Отсутствие меток: Сейчас федеративное обучение хорошо работает там, где пользователь неявно маркирует данные (например, автодополнение текста). Для классификации изображений нужно научиться эффективно обучать модели на неразмеченных данных с мобильных устройств .
- Снятие ограничений по питанию: Текущие стандарты требуют подключения к Wi-Fi и зарядке для начала обучения. Цель Qualcomm — оптимизировать пайплайны настолько, чтобы обучение могло происходить на ходу, используя мобильный интернет и заряд батареи, не доставляя дискомфорта пользователю .