# NeurIPS 2023: Инновации в ИИ от грамматик до коррекции данных

Источник: https://www.youtube.com/watch?v=cx3bbMf9LRA
Канал: Yannic Kilcher
Опубликовано: 26.12.2023

---

## Инновации на NeurIPS 2023: от грамматик до исправления данных [[JUMP:0:00]]

На конференции NeurIPS 2023, крупнейшем мировом событии в области машинного обучения, ведущий канала Янник Кильхер (Yannic Kilcher) пообщался с исследователями, представившими свои работы. Темы варьировались от алгоритмов сегментации видео и адаптации нейросетей к новым условиям до коррекции искажений в данных и оптимизации обучения на множестве задач. Авторы представили подходы, которые позволяют улучшить производительность моделей, не прибегая к дорогостоящему переобучению с нуля.

### 🎥 Сегментация действий с помощью грамматик
[[JUMP:1:05]]

Исследователи представили алгоритм для временной сегментации видео (temporal action segmentation), который решает проблему «ошибок контекста». Современные нейросети часто фокусируются только на визуальных признаках, из-за чего могут ошибочно классифицировать действия, не соответствующие общему смыслу видео (например, добавление горчицы в кофе).

*   **Суть подхода:** Вводится алгоритм индукции грамматики активности и эффективный парсер.
*   **Правила грамматики:**
    *   *AND-правила:* фиксируют временной порядок действий (например, сначала взять чашку, потом налить кофе).
    *   *OR-правила:* описывают действия без жесткой последовательности, которые могут меняться местами.
*   **Результаты:** Использование грамматики позволяет эффективно удалять «внеконтекстные» ошибки, повышая точность базовых моделей. Авторы предполагают, что в будущем можно будет извлекать подобные правила из обычных описаний видео, что поможет улучшить работу алгоритмов автоматической разметки.

### 🧠 Адаптация моделей: объединение генеративного и дискриминативного подходов
[[JUMP:8:54]]

Существует два основных способа обучения восприятию: дискриминативный (bottom-up, например, классификаторы) и генеративный (top-down, например, Stable Diffusion). Дискриминативные модели лучше подгоняются под тренировочный набор, но генеративные часто лучше обобщают данные вне распределения (out-of-distribution).

*   **Метод:** Авторы предлагают архитектуру типа автокодировщика, где дискриминатор выступает энкодером, а генератор — декодером.
*   **Тестовая адаптация:** Во время инференса (тестирования) модель адаптируется к каждому примеру независимо с помощью «диффузионной функции потерь».
*   **Эффективность:** Этот метод позволяет улучшить показатели классификаторов CLIP и ImageNet на 20 и более пунктов в онлайн-режиме, превосходя существующие методы адаптации (TENT, TTD).

### 📉 Эффективность обучения рекуррентных нейросетей
[[JUMP:17:18]]

Работа посвящена вопросу: сколько данных нужно для обучения рекуррентных нейронных сетей (РНС)?

*   **Тезис:** Обычно для обучения РНС требуется линейное количество образцов относительно длины последовательности. Однако, если добавить в сеть «крошечный шум», она перестает запоминать прошлое слишком идеально и, как следствие, меньше подвержена переобучению.
*   **Интуиция:** Шум не дает сети иметь «бесконечную точность», что делает её работу более похожей на реальные системы с ограниченной разрядностью (floating point). В теории это позволяет значительно снизить потребность в данных.

### ⚖️ Геометрия задач и Loki
[[JUMP:39:30]]

Классификаторы часто делают ошибочное предположение, что все классы полностью независимы. Однако в реальности между ними есть связи (например, «кошка» и «собака» ближе друг к другу, чем «кошка» и «автобус»).

*   **Метод Loki:** Вместо простого выбора класса через `argmax`, авторы предлагают вычислять «взвешенное среднее» в метрическом пространстве классов.
*   **Практическое применение:** Если у вас есть классификатор на подмножество из 250 классов ImageNet, метод позволяет предсказывать даже промежуточные классы, которых нет в этом подмножестве, используя иерархию WordNet.

### 🛠 Исправление «зашумленных» данных (DataFix)
[[JUMP:46:21]]

Системы часто сталкиваются с проблемой смещения признаков (feature shift) — например, когда данные из разных больниц или датчиков не стандартизированы.

*   **Метод DataFix:**
    1.  Обучается случайный лес (random forest) для классификации между «чистыми» (reference) и «испорченными» данными.
    2.  На основе важности признаков (feature importance) алгоритм итеративно удаляет «коррумпированные» параметры.
    3.  Затем происходит восстановление значений путем случайных перестановок и замены из эталонного набора.
*   **Итог:** Метод превосходит современные техники импутации и выравнивания данных в задачах локализации и коррекции признаков.