Янник Кильхер на NeurIPS 2023: почему ChatGPT не читает вверх ногами и как чинить «горчицу в кофе»

Yannic Kilcher 13,3 тыс. 57 мин 5 мин 26.12.2023
Главное

Традиционная конференция по нейросетевым технологиям NeurIPS 2023 в Новом Орлеане стала площадкой для демонстрации прикладных решений, которые устраняют фундаментальные пробелы в работе современных ИИ-моделей. В своем репортаже с четвертой постерной сессии Янник Кильхер (Yannic Kilcher) пообщался с авторами проектов, работающих над такими проблемами, как галлюцинации контекста в видео, неспособность ChatGPT читать перевернутый текст и избыточная сложность дообучения моделей под тысячи разных задач.

🎥 Сегментация действий: борьба с «горчицей в кофе» 0:52

Одной из первых обсуждаемых тем стала временная сегментация действий (temporal action segmentation). Суть задачи заключается в том, чтобы классифицировать каждый кадр необработанного видео (например, процесса приготовления завтрака) и определить границы конкретных действий: «взял кружку», «налил кофе», «добавил сахар».

Как отмечает один из исследователей, существующие модели часто страдают от ошибок вне контекста (out of context errors) . Например, нейросеть может ошибочно классифицировать движение руки как «добавление горчицы» в процессе приготовления кофе только из-за визуального сходства объектов, хотя это действие логически невозможно в данном контексте .

Для решения этой проблемы команда предложила четырехэтапный подход:

По словам авторов, такая система позволяет эффективно удалять «галлюцинаторные» действия из итогового отчета, опираясь на глобальную структуру задачи, а не только на локальные визуальные признаки кадра .

🧠 Генерация против дискриминации: тест-тайм адаптация 8:54

Другая группа исследователей представила проект, объединяющий сильные стороны дискриминативных моделей (классификаторов, таких как ResNet или CLIP) и генеративных моделей (например, Stable Diffusion).

Основная идея строится на том, что классификаторы отлично работают на тренировочных данных, но часто полагаются на «короткие пути» (shortcuts) и плохо обобщают информацию . Генеративные модели, напротив, лучше понимают общую структуру данных, но проигрывают в точности классификации на стандартных тестах (например, ImageNet).

Предложенный метод адаптации во время инференса (test-time adaptation) работает следующим образом:

  1. Изображение подается на классификатор, который выдает мягкие вероятности классов .
  2. Эти вероятности (вместо жесткого One-Hot вектора) передаются в предобученную модель диффузии в качестве условия .
  3. Если классификатор ошибся (например, назвал гуся собакой), модель диффузии не сможет качественно восстановить изображение из шума, что приведет к высокому значению функции потерь .
  4. Градиент этой потери пробрасывается обратно, заставляя классификатор изменить предсказание на то, которое позволит генератору «узнать» объект и успешно его восстановить .

Исследователи утверждают, что такой подход позволяет улучшить точность лучших моделей CLIP на несколько процентных пунктов без переобучения, просто адаптируясь к конкретному входящему примеру .

🙃 Эквивариантность: почему ChatGPT не любит перевернутый текст? 27:08

Янник Кильхер обсудил с авторами проблему «геометрической слепоты» современных языковых и мультимодальных моделей. Известно, что даже GPT-4 часто не справляется с распознаванием перевернутого или сильно повернутого текста на изображениях . Аналогичные проблемы наблюдаются у модели Segment Anything (SAM) от Meta: при повороте изображения точность сегментации резко падает .

Вместо дорогостоящего дообучения гигантских моделей на всех возможных поворотах (data augmentation), авторы предложили использовать «Канонизатор» (Canonicalizer):

Интересно замечание одного из авторов о человеческом восприятии: когда мы видим перевернутую машину, мы мысленно «поворачиваем» её образ . Канонизатор делает то же самое, в отличие от классических эквивариантных архитектур, которые пытаются использовать вращающиеся фильтры внутри самой сети .

🧩 Масштабируемые адаптеры: тысячи задач в одной модели 33:17

Специалист из Microsoft (участвующий в дискуссии анонимно в контексте одного из своих проектов) представил метод эффективного управления множеством задач с помощью адаптеров (например, LoRA). Проблема в том, что если у вас десятки тысяч задач, обучать и хранить отдельный адаптер для каждой (даже если он весит несколько мегабайт) становится невозможно .

Решение — многоголовочные адаптеры (multi-head adapters):

Это позволяет плавно регулировать баланс между точностью и количеством параметров. При увеличении числа «чанков» точность растет, но возрастают и вычислительные затраты . Модель способна масштабироваться до 10 000+ задач, что критически важно для крупных корпоративных систем .

🧼 DataFix: очистка данных в духе GAN 46:21

Завершающим интересным проектом стала система DataFix, предназначенная для обнаружения и исправления сдвигов в данных (feature shift). Это актуально для медицины: например, если данные из больницы А качественные, а в больнице Б барахлит датчик или нарушен стандарт записи BMI (индекса массы тела), это может испортить общее исследование .

Метод работает итеративно:

  1. Обучается бинарный классификатор (случайный лес), пытающийся отличить «эталонные» данные от «подозрительных» .
  2. Если классификатор легко находит отличия, исследователи смотрят на важность признаков (feature importance). Те признаки, по которым классификатор «узнает» плохие данные, помечаются как испорченные .
  3. Испорченные признаки удаляются, и цикл повторяется до тех пор, пока классификатор не перестает отличать один набор данных от другого (достигает точности случайного угадывания) .
  4. Для исправления данных используются «предложения» (proposals) из эталонного набора, которые подставляются в испорченные ячейки так, чтобы дискриминатор перестал видеть разницу .

По словам авторов, этот метод, основанный на простых случайных лесах, показал результаты лучше, чем сложные дифференцируемые системы и методы оптимального транспорта .

💬 Цитаты

«Единственное, в чем вы можете быть уверены на NeurIPS, это в том, что там всегда, всегда есть алгоритмы 'бандитов', и они просто не умирают.»

Янник Кильхер (Yannic Kilcher) 56:46

«Существующие нейросети слишком концентрируются на визуальных признаках и не отличают ложку сахара от добавления горчицы в кофе.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Эквивариантность
Свойство модели сохранять предсказуемость при трансформации входных данных (например, повороте изображения).
PCFG
Вероятностная контекстно-свободная грамматика, используемая здесь для описания логики последовательности действий.
Test-time adaptation
Процесс подстройки модели под конкретный входящий пример непосредственно в момент предсказания.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект NeurIPS 2023 Yannic Kilcher Microsoft Stable Diffusion Segment Anything