# Итоги сессии NeurIPS 2023: от скрытых алгоритмов трансформеров до защиты от аппаратных сбоев

Источник: https://www.youtube.com/watch?v=p6d-cMkVz7M
Канал: Yannic Kilcher
Опубликовано: 16.12.2023

---

Стендовые сессии престижной конференции NeurIPS 2023 традиционно становятся средоточием прорывных идей и оживленных дискуссий в сообществе исследователей искусственного интеллекта. Известный ИИ-специадерист и блогер Янник Кильчер (Yannic Kilcher) провел подробный обзор утренней сессии среды, пообщавшись с авторами наиболее перспективных работ. В центре внимания журналистского разбора оказались неочевидные механизмы обучения рекуррентных сетей, методы невидимого редактирования изображений, скрытая математика трансформеров и инновационные способы программной защиты нейросетей от физических дефектов железа.

## 📉 Динамические системы и бифуркации: почему «взрывается» лосс при обучении RNN
[[JUMP:0:28]]

При обучении рекуррентных нейронных сетей (RNN) инженеры регулярно сталкиваются с резкими, необъяснимыми скачками функции потерь (лосса). Исследователи решили изучить этот феномен с точки зрения теории динамических систем, используя RNN с активацией ReLU. Выбор такой архитектуры обусловлен тем, что она позволяет находить точные аналитические решения в закрытой форме для фиксированных точек и K-циклов. В качестве бенчмарков в работе использовались система Лоренца и эмпирические данные электрических сигналов клеточных мембран.

Как поясняют авторы работы, зафиксированные аномалии в обучении напрямую связаны с бифуркациями — качественными изменениями динамического поведения системы. Например, система может внезапно перейти от стабильного состояния (фиксированной точки) к циклическому поведению. В процессе обучения ландшафт потерь становится крайне неровным и искривленным, из-за чего лосс может мгновенно устремиться к бесконечности, демонстрируя дивергентный характер. 

Для борьбы с вычислительной сложностью авторы предложили оригинальную эвристику:

* Алгоритм инициализируется в одном случайном квадранте, где рассчитывается уравнение состояния.
* Если решение лежит в том же квадранте, фиксированная точка признается реальной.
* Если решение уходит в другой квадрант, точка считается «виртуальной» (она притягивает систему, но исчезает при пересечении границы), и алгоритм перезапускается в квадранте этой виртуальной точки.

Этот подход масштабируется значительно лучше, чем стандартный случайный поиск по квадрантам, сложность которого растет как $2^d$, где $d$ — размерность сети. Эксперименты показали, что практически каждый крупный скачок лосса аккуратно выровнен по кривым бифуркации. 

По мнению исследователей, понимание этих механизмов позволяет не просто улучшить предсказания, но и полностью реконструировать динамическую систему, включая выявление скрытых биологических смыслов в стабильных и нестабильных циклах. В качестве практического решения ученые доказали, что применение обобщенного метода «принудительного обучения» (teacher forcing) сбалансированно сглаживает ландшафт потерь и полностью предотвращает вырожденные транскритические бифуркации.

## 🎨 Редактирование реальных изображений «за копейки»: технология Ledits++
[[JUMP:8:39]]

Новый метод под названием Ledits++ призван кардинально упростить процесс редактирования реальных снимков с помощью диффузионных моделей. В отличие от классического подхода семантического руководства (semantic guidance), который работает исключительно со скрытым (латентным) пространством генерации Stable Diffusion, Ledits++ позволяет изменять уже существующие фотографии, загруженные пользователем.

Технологический стек проекта опирается на несколько ключевых инноваций:

* Использование инверсии DPM-Solver++, которая возвращает реальное изображение обратно в лаентное пространство всего за 50 шагов или даже быстрее.
* Полное отсутствие необходимости в предварительном обучении или тонкой настройке (fine-tuning) нейросети на этапе вывода.
* Архитектура совместима с любыми предобученными текстовыми диффузионными моделями, включая Stable Diffusion 1.5, 2.0 и SDXL.

Главным преимуществом Ledits++ авторы называют так называемое «семантическое заземление» (semantic grounding). Программа бесплатно извлекает маски внимания из блоков UNet и масок шума диффузионной модели. Пользователю больше не нужно вручную выделять объекты кистью или сегментировать сцену. 

Если на фотографии автомобиля написать «добавить цветущую сакуру», модель самостоятельно определит, где находится дерево, и заменит его, не затронув геометрию кузова машины или фон. Без такого заземления семантические изменения начинают «растекаться» по кадру — например, розовые оттенки сакуры могут ошибочно проявиться в автомобильных фарах. Процесс инверсии занимает около одной секунды, обеспечивая быстрое редактирование без ошибок реконструкции.

## 🔤 Жизнь без фиксированных токенов: языковые модели на случайных гауссовых эмбеддингах
[[JUMP:13:48]]

Традиционная парадигма языковых моделей со времен Word2Vec жестко опирается на фиксированные эмбеддинги токенов, когда каждому слову или символу соответствует постоянный неизменяемый вектор. Участники NeurIPS представили радикальное исследование, проверяющее, способна ли большая языковая модель работать эффективно без фиксированной идентичности токенов, когда значение символа определяется исключительно контекстом его окружения.

Авторы ввели понятие лексической вариативности (lexical variance) и построили модель, где привычный слой эмбеддингов трансформера заменен генератором случайных гауссовых векторов. В рамках одной текстовой последовательности одинаковые буквы (например, «е») получают идентичный случайный вектор, но в разных последовательностях той же самой букве присваиваются совершенно новые гауссовы значения. Таким образом, модель имитирует условия шифра простой подстановки.

Удивительным эмпирическим результатом работы стало то, что такая модель успешно сходится со стандартными трансформерами по метрике перплексии при предсказании следующего токена. Однако архитектура накладывает жесткое ограничение: модель принципиально не способна предсказать символ, которого еще не было в текущем входном контексте, что требует использования значительно больших контекстных окон. 

По заявлениям разработчиков, сеть демонстрирует уникальные врожденные способности к дешифровке текстов «на лету» (in-context deciphering), а ключ подстановки можно легко извлечь обычным линейным зондированием над замороженными слоями. В задачах на манипуляцию символами (работа с таблицами поиска и перестановками) экспериментальная модель показала четырехкратное преимущество по сравнению со стандартной архитектурой. Это доказывает тезис авторов о том, что природа человеческого языка во многом состоит из чистых взаимосвязей между элементами, а не из абсолютных значений слов.

## 🧮 Что внутри трансформера? Реализация обусловленного градиентного спуска при обучении в контексте
[[JUMP:19:15]]

Механизм обучения в контексте (In-Context Learning, ICL) долгое время оставался загадкой с точки зрения внутренней математики. Авторы следующего исследования теоретически и практически доказали, что когда трансформер обучается в контексте, его слои фактически пошагово реализуют алгоритм обусловленного градиентного спуска (preconditioned gradient descent). 

Чтобы зафиксировать этот процесс, ученые протестировали нейросеть на классической задаче наименьших квадратов (least squares). В модель подавались пары примеров $(x_i, y_i)$, а на выходе ожидалось предсказание для следующего токена. Выяснилось, что по мере прохождения данных через слои, параметры сети не меняются, но происходит последовательное обновление внутренних репрезентаций данных.

В ходе дискуссии Янник Кильчер предположил, что трансформер мог просто зазубрить огромный массив данных. Исследователи парировали это утверждение, разграничив два процесса:

* Запоминание (меморизация) действительно присутствует, но оно всецело уходит на формирование матрицы предобусловливания, которая зависит от спектра ковариационной матрицы данных $\Sigma$.
* Сам алгоритм адаптации разворачивается непосредственно в процессе итеративного прохода по слоям.

Ученые наглядно отследили, как вектор ответов $y_{n+1}$, изначально равный нулю на первом слое, постепенно эволюционирует и уточняется от слоя к слою, эквивалентно проецированию шагов градиента. На теоретическом уровне для однослойной модели авторы строго доказали, что глобальный оптимум в точности соответствует данному математическому алгоритму. Для многослойных систем доказательство пока слабее и гарантирует достижение стационарной точки, однако практические тесты подтверждают стабильную сходимость к искомой структуре.

## 📊 Pick-a-Pic и PickScore: как один миллион пользовательских предпочтений победил метрику FID
[[JUMP:23:31]]

Одной из главных проблем в развитии генераторов изображений оставалось отсутствие качественных открытых датасетов с человеческими предпочтениями, аналогичных тем, что используются для обучения ChatGPT (RLHF). Команда исследователей исправила этот вакуум, запустив бесплатный веб-сайт для генерации картинок, где для получения следующей генерации пользователь должен был выбрать наиболее удачный вариант из двух предложенных. 

В результате им удалось собрать датасет Pick-a-Pic, содержащий более 1 миллиона реальных человеческих оценок пар «промт-изображение». По словам авторов, собранные данные кардинально отличаются от стандартного бенчмарка MS COCO: пользовательские запросы оказались живыми, разнообразными, часто пугающими или комичными. На базе этого массива была обучена функция вознаграждения (reward model) PickScore, оценивающая уровень удовлетворенности человека результатом генерации по текстовому описанию.

В тестах на предсказание человеческого выбора PickScore превзошел не только существующие аналоги, но и независимых приглашенных экспертов. Причина феномена кроется в качестве данных: создатели исходных промтов обладают уникальным внутренним контекстом и видением того, что они хотели получить, в то время как сторонние наемные разметчики (crowd workers) оценивают картинки поверхностно. 

Разработчики выступили с жесткой критикой общепринятой метрики FID (Fréchet Inception Distance), назвав ее крайне неэффективной, поскольку она в принципе не учитывает текстовый запрос и нередко демонстрирует обратную (негативную) корреляцию с реальным выбором людей. В качестве практического применения PickScore авторы предложили простой метод: генерировать сразу несколько вариантов силами базовой модели, ранжировать их через PickScore и выдавать пользователю лучший результат. Данный подход уже взят на вооружение сторонними командами для улучшения модели SDXL через DPO-оптимизацию.

## 🗺️ От картинки к точным координатам: глобальная геолокализация через Image-to-GPS ретривал
[[JUMP:30:47]]

Задача определения точных GPS-координат (широты и долготы) по случайной фотографии сопряжена с колоссальными трудностями, ведь искать совпадения приходится в масштабах всей планеты. Существующие ИИ-системы обычно используют классификационный подход, разбивая Землю на фиксированную сетку (грид), однако это приводит к жестким ошибкам квантования на границах ячеек. Другая альтернатива — поиск соответствий между изображениями (image-to-image) — требует хранения базы данных панорам всей планеты, что технически нереализуемо.

Представленная на NeurIPS архитектура реализует концепцию прямого поиска изображений по координатам (Image-to-GPS retrieval) с помощью контрастивного обучения. Картинка кодируется через предобученный энкодер CLIP, а координаты проходят через специализированный пространственный кодировщик.

Процесс обработки географических данных устроен следующим образом:

* 2D-координаты переводятся в равновеликую проекцию (equal projection), чтобы ликвидировать искажения традиционной картографии в полярных регионах.
* Данные пропускаются через случайные признаков Фурье (Random Fourier Features) для извлечения синусоидальных эмбеддингов.
* Используется каскад различных масштабов (значений сигмы), передаваемых на выделенные многослойные перцептроны (MLP), что позволяет одновременно фиксировать как глобальные контуры материков, так и мелкозернистые городские детали.

Благодаря нативной синергии с пространством CLIP, система поддерживает «нулевой перенос» (zero-shot) на текстовые запросы. Заменив энкодер изображений на текстовый, можно ввести слово «пустыня», и модель подсветит на тепловой карте планеты все засушливые зоны. Точно так же она локализует конкретные города или достопримечательности. Авторы учли плотность распределения обучающих данных Google Street View: галерея координат формировалась со смещением в сторону заселенных людьми областей, отсекая пустые океаны, что значительно повысило точность работы. Янник Кильчер в шутку порекомендовал разработчикам бросить вызов топовым игрокам популярной географической онлайн-игры GeoGuessr.

## 🛡️ Семантическая инициализация против сбоев железа: как защитить нейросети от битовых ошибок
[[JUMP:37:04]]

Проблема физической деградации полупроводников, скачков напряжения и микродефектов производства накладывает серьезные риски на развертывание ИИ в критически важных сферах, таких как беспилотные автомобили. Аппаратные сбои вызывают «тихое повреждение данных» (silent data corruption): система не уходит в критическую ошибку с перезагрузкой, но нейросеть начинает выдавать ложные предсказания, например, увеличивая скорость машины перед препятствием.

Команда инженеров представила элегантное софтверное решение этой проблемы, задействовав текстовые описания классов для инициализации финального слоя классификаторов. Стандартный подход подразумевает случайную инициализацию весов последнего слоя перед обучением. Вместо этого авторы с помощью GPT-3 сгенерировали развернутые текстовые описания для каждого целевого класса, прогнали их через текстовый кодировщик CLIP и усреднили полученные эмбеддинги. Полученные семантические векторы и послужили основой для проекционного слоя.

Физика процесса устойчивости объясняется особенностями архитектур:

* Ошибки инверсии битов (bit flips) на ранних или промежуточных слоях сверточных сетей с высокой долей вероятности нивелируются функциями активации вроде ReLU.
* Сбой на финальном слое напрямую искажает итоговый вердикт модели, делая его наиболее уязвимым местом всей системы.
* Семантическая предобусловленность заставляет финальный слой работать со значительно более высоким уровнем внутренней уверенности, демпфируя аппаратно искаженные сигналы.

Существующие инженерные методы, применяемые, например, в компьютерах Tesla, опираются на полное модульное дублирование плат, что ведет к росту энергопотребления и задержкам (latency) вычислений. Программный метод авторов лишен этих недостатков. Для проверки своей гипотезы исследователи применили симуляционную программную среду GoldenEye, искусственно внедрив критические битовые ошибки в вычисления. Результаты показали впечатляющее среднее повышение отказоустойчивости системы в 5.5 раз (в пиковых сценариях — до 14 раз) при падении точности на чистых данных всего на символические 0.3%.