Инновации на NeurIPS 2023: от грамматик до исправления данных
На конференции NeurIPS 2023, крупнейшем мировом событии в области машинного обучения, ведущий канала Янник Кильхер (Yannic Kilcher) пообщался с исследователями, представившими свои работы. Темы варьировались от алгоритмов сегментации видео и адаптации нейросетей к новым условиям до коррекции искажений в данных и оптимизации обучения на множестве задач. Авторы представили подходы, которые позволяют улучшить производительность моделей, не прибегая к дорогостоящему переобучению с нуля.
🎥 Сегментация действий с помощью грамматик 1:05
Исследователи представили алгоритм для временной сегментации видео (temporal action segmentation), который решает проблему «ошибок контекста». Современные нейросети часто фокусируются только на визуальных признаках, из-за чего могут ошибочно классифицировать действия, не соответствующие общему смыслу видео (например, добавление горчицы в кофе).
- Суть подхода: Вводится алгоритм индукции грамматики активности и эффективный парсер.
- Правила грамматики:
- AND-правила: фиксируют временной порядок действий (например, сначала взять чашку, потом налить кофе).
- OR-правила: описывают действия без жесткой последовательности, которые могут меняться местами.
- Результаты: Использование грамматики позволяет эффективно удалять «внеконтекстные» ошибки, повышая точность базовых моделей. Авторы предполагают, что в будущем можно будет извлекать подобные правила из обычных описаний видео, что поможет улучшить работу алгоритмов автоматической разметки.
🧠 Адаптация моделей: объединение генеративного и дискриминативного подходов 8:54
Существует два основных способа обучения восприятию: дискриминативный (bottom-up, например, классификаторы) и генеративный (top-down, например, Stable Diffusion). Дискриминативные модели лучше подгоняются под тренировочный набор, но генеративные часто лучше обобщают данные вне распределения (out-of-distribution).
- Метод: Авторы предлагают архитектуру типа автокодировщика, где дискриминатор выступает энкодером, а генератор — декодером.
- Тестовая адаптация: Во время инференса (тестирования) модель адаптируется к каждому примеру независимо с помощью «диффузионной функции потерь».
- Эффективность: Этот метод позволяет улучшить показатели классификаторов CLIP и ImageNet на 20 и более пунктов в онлайн-режиме, превосходя существующие методы адаптации (TENT, TTD).
📉 Эффективность обучения рекуррентных нейросетей 17:18
Работа посвящена вопросу: сколько данных нужно для обучения рекуррентных нейронных сетей (РНС)?
- Тезис: Обычно для обучения РНС требуется линейное количество образцов относительно длины последовательности. Однако, если добавить в сеть «крошечный шум», она перестает запоминать прошлое слишком идеально и, как следствие, меньше подвержена переобучению.
- Интуиция: Шум не дает сети иметь «бесконечную точность», что делает её работу более похожей на реальные системы с ограниченной разрядностью (floating point). В теории это позволяет значительно снизить потребность в данных.
⚖️ Геометрия задач и Loki 39:30
Классификаторы часто делают ошибочное предположение, что все классы полностью независимы. Однако в реальности между ними есть связи (например, «кошка» и «собака» ближе друг к другу, чем «кошка» и «автобус»).
- Метод Loki: Вместо простого выбора класса через
argmax, авторы предлагают вычислять «взвешенное среднее» в метрическом пространстве классов. - Практическое применение: Если у вас есть классификатор на подмножество из 250 классов ImageNet, метод позволяет предсказывать даже промежуточные классы, которых нет в этом подмножестве, используя иерархию WordNet.
🛠 Исправление «зашумленных» данных (DataFix) 46:21
Системы часто сталкиваются с проблемой смещения признаков (feature shift) — например, когда данные из разных больниц или датчиков не стандартизированы.
- Метод DataFix:
- Обучается случайный лес (random forest) для классификации между «чистыми» (reference) и «испорченными» данными.
- На основе важности признаков (feature importance) алгоритм итеративно удаляет «коррумпированные» параметры.
- Затем происходит восстановление значений путем случайных перестановок и замены из эталонного набора.
- Итог: Метод превосходит современные техники импутации и выравнивания данных в задачах локализации и коррекции признаков.