NeurIPS 2023: Инновации в ИИ от грамматик до коррекции данных

Инновации на NeurIPS 2023: от грамматик до исправления данных

На конференции NeurIPS 2023, крупнейшем мировом событии в области машинного обучения, ведущий канала Янник Кильхер (Yannic Kilcher) пообщался с исследователями, представившими свои работы. Темы варьировались от алгоритмов сегментации видео и адаптации нейросетей к новым условиям до коррекции искажений в данных и оптимизации обучения на множестве задач. Авторы представили подходы, которые позволяют улучшить производительность моделей, не прибегая к дорогостоящему переобучению с нуля.

🎥 Сегментация действий с помощью грамматик 1:05

Исследователи представили алгоритм для временной сегментации видео (temporal action segmentation), который решает проблему «ошибок контекста». Современные нейросети часто фокусируются только на визуальных признаках, из-за чего могут ошибочно классифицировать действия, не соответствующие общему смыслу видео (например, добавление горчицы в кофе).

Суть подхода: Вводится алгоритм индукции грамматики активности и эффективный парсер.
Правила грамматики:
- AND-правила: фиксируют временной порядок действий (например, сначала взять чашку, потом налить кофе).
- OR-правила: описывают действия без жесткой последовательности, которые могут меняться местами.
Результаты: Использование грамматики позволяет эффективно удалять «внеконтекстные» ошибки, повышая точность базовых моделей. Авторы предполагают, что в будущем можно будет извлекать подобные правила из обычных описаний видео, что поможет улучшить работу алгоритмов автоматической разметки.

🧠 Адаптация моделей: объединение генеративного и дискриминативного подходов 8:54

Существует два основных способа обучения восприятию: дискриминативный (bottom-up, например, классификаторы) и генеративный (top-down, например, Stable Diffusion). Дискриминативные модели лучше подгоняются под тренировочный набор, но генеративные часто лучше обобщают данные вне распределения (out-of-distribution).

Метод: Авторы предлагают архитектуру типа автокодировщика, где дискриминатор выступает энкодером, а генератор — декодером.
Тестовая адаптация: Во время инференса (тестирования) модель адаптируется к каждому примеру независимо с помощью «диффузионной функции потерь».
Эффективность: Этот метод позволяет улучшить показатели классификаторов CLIP и ImageNet на 20 и более пунктов в онлайн-режиме, превосходя существующие методы адаптации (TENT, TTD).

📉 Эффективность обучения рекуррентных нейросетей 17:18

Работа посвящена вопросу: сколько данных нужно для обучения рекуррентных нейронных сетей (РНС)?

Тезис: Обычно для обучения РНС требуется линейное количество образцов относительно длины последовательности. Однако, если добавить в сеть «крошечный шум», она перестает запоминать прошлое слишком идеально и, как следствие, меньше подвержена переобучению.
Интуиция: Шум не дает сети иметь «бесконечную точность», что делает её работу более похожей на реальные системы с ограниченной разрядностью (floating point). В теории это позволяет значительно снизить потребность в данных.

⚖️ Геометрия задач и Loki 39:30

Классификаторы часто делают ошибочное предположение, что все классы полностью независимы. Однако в реальности между ними есть связи (например, «кошка» и «собака» ближе друг к другу, чем «кошка» и «автобус»).

Метод Loki: Вместо простого выбора класса через argmax, авторы предлагают вычислять «взвешенное среднее» в метрическом пространстве классов.
Практическое применение: Если у вас есть классификатор на подмножество из 250 классов ImageNet, метод позволяет предсказывать даже промежуточные классы, которых нет в этом подмножестве, используя иерархию WordNet.

🛠 Исправление «зашумленных» данных (DataFix) 46:21

Системы часто сталкиваются с проблемой смещения признаков (feature shift) — например, когда данные из разных больниц или датчиков не стандартизированы.

Метод DataFix:
1. Обучается случайный лес (random forest) для классификации между «чистыми» (reference) и «испорченными» данными.
2. На основе важности признаков (feature importance) алгоритм итеративно удаляет «коррумпированные» параметры.
3. Затем происходит восстановление значений путем случайных перестановок и замены из эталонного набора.
Итог: Метод превосходит современные техники импутации и выравнивания данных в задачах локализации и коррекции признаков.