Янник Килчер на NeurIPS 2023: главные тренды нейросетей

Крупнейшая международная конференция по искусственному интеллекту NeurIPS 2023 традиционно стала местом презентации самых передовых и неожиданных ИТ-исследований. Известный блогер и исследователь Янник Килчер провел детальный обзор второй постерной сессии, пообщавшись с авторами наиболее перспективных научных работ. В центре внимания оказались как прикладные технологии редактирования изображений и повышения отказоустойчивости «железа», так и глубокие теоретические изыскания в области динамики нейросетей.

📉 Борьба с хаосом: почему «взрывается» обучение рекуррентных сетей 0:01

Обучение рекуррентных нейронных сетей (RNN) часто сопровождается внезапными и необъяснимыми скачками функции потерь. Группа исследователей решила выяснить фундаментальную математическую причину этого явления. Для экспериментов они выбрали стандартные RNN с активацией ReLU, поскольку для них существует точное аналитическое решение в закрытой форме для поиска неподвижных точек и K-циклов. В качестве тестовых данных использовались как синтетические системы (например, система Лоренца), так и реальные временные ряды, включая записи электрического потенциала клеточных мембран.

По определению авторов работы, бифуркация представляет собой качественное изменение динамического поведения системы — например, переход от стабильной неподвижной точки к циклическому поведению. В процессе обучения исследователи зафиксировали аномальные скачки loss-функции, когда показатель устремлялся практически к бесконечности. Как утверждает спикер, подобные «неровности» ландшафта потерь наблюдаются практически всегда при обучении RNN, даже на задачах обработки естественного языка, хотя столь экстремальные расхождения встречаются редко.

Аналитический расчет всех динамических объектов в 100-мерной сети ReLU крайне затруднителен, поскольку сложность масштабируется как $2^D$, где $D$ — размерность пространства. Чтобы обойти это ограничение, ученые разработали оригинальный эвристический алгоритм:

Инициализация: алгоритм запускается в случайном квадранте пространства состояний.
Проверка: вычисляется положение гипотетической неподвижной точки. Если решение лежит в том же квадранте, точка признается реальной.
Виртуальные точки: если решение уходит в другой квадрант, точка считается «виртуальной» — система притягивается к ней, но при пересечении границы квадранта объект исчезает. В этом случае алгоритм перезапускается в квадранте виртуальной точки.

Эксперименты показали, что данный метод масштабируется значительно лучше случайного поиска. В полностью обученной системе исследователи смогли обнаружить сложные динамические структуры: стабильный 39-цикл (описывающий регулярные спайки мембраны), стабильную неподвижную точку, а также нестабильные 9- и 39-циклы. По мнению автора, некоторые из этих циклов могут оказаться просто артефактами обучения, что требует дальнейшего изучения.

Главным практическим выводом работы стало объяснение эффективности метода обобщенного принудительного обучения (generalized teacher forcing), представленного на конференции ICML. Исследователи математически доказали, что при правильном подборе коэффициента $\alpha$ этот метод сглаживает ландшафт потерь и полностью устраняет вырожденную транскритическую бифуркацию, которая и вызывает катастрофические скачки loss-функции, делая обучение RNN быстрее и стабильнее.

🎨 Умное редактирование: как технология L++ меняет реальные изображения 8:43

Технология семантического руководства (semantic guidance) традиционно применяется для изменения изображений непосредственно в латентном пространстве диффузионных моделей, однако ранее это работало преимущественно на сгенерированных кадрах. Новый метод под названием L++ адаптирует данный подход для редактирования реальных фотографий. Главным новшеством работы стало внедрение инверсии на базе DPM-Solver++, что позволяет вернуть реальный снимок в латентное пространство всего за 50 шагов или даже меньше. Метод совместим с любыми предопределенными текстовыми диффузорами, включая Stable Diffusion 1.5, 2.0 и XL.

Вся магия L++ происходит прямо во время инференса: технология не требует предварительного обучения или тонкой настройки архитектуры. Модель способна выполнять несколько независимых правок за один проход — к примеру, превратить Яна Лекуна в Джорджа Клуни и одновременно «надеть» на него солнцезащитные очки.

Важным технологическим прорывом авторы называют концепцию семантического заземления (semantic grounding). Для локализации изменений используются встроенные карты внимания из блока UNet и шумовые маски, которые достаются разработчикам абсолютно бесплатно. По словам спикеров, пользователю больше не нужно вручную сегментировать объекты или рисовать маски:

Автоматический поиск: достаточно ввести текстовый запрос (например, «вишневый цвет»), и модель сама понимает, что речь идет о дереве на заднем плане.
Изоляция изменений: система заменяет листву на цветущую сакуру, одновременно перекрашивая желтый автомобиль в зеленый кабриолет, но при этом идеально сохраняет геометрию фона и нетронутые участки кадра.

Если отключить семантическое заземление, то изменения начинают «растекаться» по всему кадру: например, розовый оттенок сакуры может проявиться в бликах на автомобильных фарах. Усреднение масок UNet и шума позволяет жестко локализовать правки. Процесс инверсии реального кадра занимает около одной секунды и происходит без ошибок восстановления, после чего полученные латентные коды можно использовать для бесконечного числа бесплатных и быстрых манипуляций.

🔤 Языковые модели без фиксированных эмбеддингов: сила контекста 13:48

Со времен появления алгоритма Word2Vec классические языковые модели жестко привязаны к фиксированным токенам, где каждому слову или символу соответствует постоянный вектор в многомерном пространстве. Авторы исследования Lexi-Varies задались фундаментальным вопросом: может ли большая языковая модель эффективно функционировать, если полностью лишить токены фиксированной идентичности?. В такой парадигме токен не имеет статического значения и определяет себя исключительно через паттерны взаимодействия с окружением внутри конкретного контекста.

Для реализации этой концепции исследователи заменили стандартный слой эмбеддингов в Трансформере на генератор случайных гауссовых векторов. Архитектура работает следующим образом:

В рамках одной последовательности одинаковые символы (например, буква «e») получают один и тот же случайно сгенерированный гауссов вектор.
При переходе к любой другой последовательности для той же буквы «e» генерируется совершенно новый, независимый случайный вектор.

К удивлению научного сообщества, экспериментальные данные показали, что модель Lexi-Varies успешно конвергирует и не уступает стандартным Трансформерам в задаче предсказания следующего токена. Однако у подхода есть жесткое ограничение: модель принципиально неспособна предсказать символ, который еще ни разу не встречался в текущем контексте. Именно поэтому для ее работы требуются очень длинные контекстные окна.

Как утверждают разработчики, Lexi-Varies демонстрирует феноменальные результаты в задачах инконтекстного взлома шифров подстановки (substitution cipher), воспринимая любые зашифрованные вариации как одну и ту же последовательность. Ключ шифра можно легко извлечь, обучив простую линейную модель поверх «замороженных» эмбеддингов Трансформера. Кроме того, модель показала четырехкратное преимущество в специализированных тестах на манипуляцию символами, таких как перестановки и чтение таблиц поиска. По мнению автора канала Янника Килчера, это доказывает, что человеческий язык в гораздо большей степени состоит из чистых взаимосвязей между элементами, нежели из абсолютных значений конкретных слов.

🧠 Теория трансформеров: внутриконтекстное обучение как градиентный спуск 19:15

Феномен внутриконтекстного обучения (In-Context Learning), когда модель осваивает новые навыки прямо на лету из текста промпта без обновления весов, долгое время оставался загадкой. Автор следующего доклада математически доказал, что Трансформеры в процессе внутриконтекстного обучения фактически послойно реализуют алгоритм преобусловленного градиентного спуска (preconditioned gradient descent).

Для проверки этой гипотезы ученые обучили Трансформер решать классическую задачу наименьших квадратов (least squares problem). В качестве входных данных модели подавались пары примеров $(x_i, y_i)$, а на выходе она должна была предсказать значение $y_{n+1}$ для нового вектора $x_{n+1}$. По словам исследователя, по мере увеличения количества слоев в сети, активации начинают в точности повторять шаги оптимизационного алгоритма.

В работе четко разграничиваются два процесса:

Запоминание (Memorization): сеть действительно запоминает общие свойства распределения данных в своих статических весах. Оптимальные параметры зависят от спектра ковариационной матрицы $\Sigma$.
Оптимизация: именно за счет запоминания структуры данных веса модели формируют оператор преобусловливания, который затем используется внутренним алгоритмом градиентного спуска при обработке контекста.

Исследователи детально проследили, как меняется значение целевой переменной $y$ от слоя к слою. В самом начале (на первом слое) оно условно равно нулю, но затем планомерно обновляется, что математически эквивалентно проекции шага градиента на вектор $x_{n+1}$. С теоретической точки зрения для однослойного Трансформера ученым удалось доказать, что глобальный оптимум сети в точности совпадает с шагом преобусловленного градиентного спуска. Для многослойных архитектур доказательство пока слабее — оно гарантирует лишь достижение стационарной точки, однако практические тесты подтверждают, что глубокие модели успешно сходятся именно к этой структуре.

🗳️ Сверхчеловеческая оценка: датасет Pick-a-Pic и закат метрики FID 23:31

Использование человеческих предпочтений (RLHF) произвело революцию в текстовых языковых моделях, однако в сфере генерации изображений долгое время отсутствовали масштабные открытые наборы данных такого типа. Чтобы решить эту проблему, группа исследователей создала общедоступный веб-сайт с бесплатной генерацией картинок. Единственным условием для пользователей было обязательное голосование: чтобы увидеть следующее изображение, нужно было выбрать наиболее удачный вариант из двух предложенных генераций по их запросу.

В результате эксперимента удалось собрать датасет Pick-a-Pic, содержащий более 1 миллиона реальных человеческих предпочтений. Как отмечают авторы, эти данные разительно отличаются от классического набора MS COCO: пользовательские промпты живые, разнообразные, часто забавные или пугающие, а не скучно-описательные.

На базе собранной информации исследователи обучили функцию вознаграждения PickScore, использующую архитектуру CLIP и целевую функцию, аналогичную InstructGPT. В ходе тестирования выяснилось, что PickScore предсказывает выбор людей лучше, чем любые существующие аналоги, и даже точнее, чем наемные эксперты-разметчики (crowd workers). По мнению создателей, этот парадокс объясняется тем, что у автора промпта изначально заложено гораздо больше скрытого контекста и ожиданий в голове, чем у стороннего асессора, и PickScore умудряется улавливать эти тонкие намерения.

Авторы работы выступили с жесткой критикой общепринятого стандарта оценки генеративных моделей — метрики FID (Fréchet Inception Distance). По их мнению, FID является крайне плохой метрикой, поскольку она оценивает лишь общее распределение картинок и вообще не учитывает текстовый промпт. Более того, при усреднении FID часто демонстрирует отрицательную корреляцию с реальным выбором людей.

В качестве альтернативы ученые предлагают революционный протокол:

Использовать живые промпты из датасета Pick-a-Pic вместо сухих подписей MS COCO.
Оценивать качество моделей с помощью функции PickScore вместо FID.

Даже самое простое применение PickScore — генерация нескольких картинок базовой моделью и автоматический выбор лучшей по оценке реворд-модели — наглядно повышает качество результата по сравнению с ванильными моделями или стандартными эстетическими предикторами. Продукт уже получил широкое признание в индустрии: PickScore интегрирован в бенчмарки для редактирования видео, а сторонние команды (например, Woo et al.) успешно применили его для улучшения модели SDXL через алгоритм DPO.

🗺️ ИИ в роли Geoguessr: глобальная геолокация по одной фотографии 30:47

Определение точных GPS-координат (широты и долготы) места съемки по одной фотографии — сложнейшая задача компьютерного зрения. Существующие подходы обычно используют метод классификации: разбивают земной шар на фиксированную сетку (грид) и определяют принадлежность фото к конкретному квадрату. Однако, как утверждают авторы нового проекта, такой подход страдает от жесткой привязки к центрам сеток и ограниченного числа классов. Полноценный поиск «изображение-в-изображение» также невозможен, так как физически нельзя хранить галерею всех ракурсов планеты.

Исследователи предложили принципиально иной подход: поиск координат напрямую (Image-to-GPS retrieval). Картинка кодируется с помощью CLIP-модели, а галерея GPS-координат пропускается через специально разработанный пространственный Location Encoder, после чего система обучается с помощью контрастивного лосса.

Ключевой инновацией стала архитектура кодировщика координат, которая переводит 2D-точки в многомерные эмбеддинги:

Равновеликая проекция (Equal-area projection): традиционные координаты (широта/долгота) вызывают сильные геометрические искажения, из-за чего приполярные регионы оказываются избыточно представлены по площади. Проекция выравнивает масштаб территорий.
Случайные признаки Фурье (Random Fourier Features): метод синусоидального кодирования позволяет проецировать данные через гауссову матрицу для извлечения синусов и косинусов.
Многомасштабность: авторы применили набор из нескольких коэффициентов $\sigma$ (сигма) и выделенных многослойных перцептронов (MLP). Это позволило кодировщику одновременно эффективно улавливать как глобальные макро-особенности локаций, так и мельчайшие локальные детали.

Поскольку графический энкодер изначально выровнен с текстовым пространством CLIP, вместо картинки в систему можно загрузить обычный текст без какого-либо дообучения. Запрос «пустыня» или название конкретного города мгновенно формирует глобальную тепловую карту вероятностей по всему миру.

При формировании базы координат авторы отказались от равномерного покрытия Земли. Они задействовали априорное знание о плотности расселения людей, взяв за основу распределение точек из тренировочного набора Google Street View. Это позволило исключить из галереи необитаемые зоны вроде океанов и сконцентрировать вычислительные ресурсы на релевантных участках. Янник Килчер в шутку предложил разработчикам вызвать на дуэль в Geoguessr знаменитых топ-игроков вроде блогера Rainbolt, на что авторы с улыбкой ответили, что были бы рады испытать свой ИИ в таком поединке.

⚡ Защита от сбоев железа: как GPT-3 делает нейросети устойчивыми к дефектам 37:10

При развертывании нейросетей на реальном оборудовании (например, в бортовых компьютерах беспилотных автомобилей) критически важной становится проблема аппаратной стабильности. Просадки напряжения, температурный износ и производственные дефекты чипов вызывают так называемые «тихие искажения данных» (Silent Data Corruptions) и инверсию бит (bit flips). Система при этом не завершает работу аварийно, но начинает выдавать катастрофически неверные предсказания: к примеру, беспилотный автомобиль может внезапно поехать на высокой скорости там, где это запрещено.

Разработчики представили изящное софтверное решение этой хардверной проблемы. Вместо случайной инициализации весов последнего классификационного слоя нейросети, они предложили инициализировать его семантическими эмбеддингами, полученными на основе текстовых описаний классов.

Процесс подготовки модели выглядит так:

Для каждого целевого класса (например, из 10 доступных в датасете) через GPT-3 генерируется массив детальных текстовых описаний.
Полученные тексты пропускаются через текстовый кодировщик CLIP для извлечения смысловых векторов.
Векторы усредняются, формируя максимально стабильный и информативный семантический портрет каждого класса, который и записывается в веса проекционного слоя перед финальным обучением.

Как объясняют авторы, если аппаратный сбой (инверсия бита) происходит на начальных или промежуточных сверточных слоях, математика сети и функции активации типа ReLU с высокой долей вероятности способны нивелировать и «загасить» эту ошибку в процессе дальнейших вычислений. Однако финальный слой абсолютно беззащитен перед аппаратными дефектами, так как напрямую формирует итоговый вердикт модели. Фокусировка на защите этого уязвимого звена кардинально повышает общую стойкость системы.

Существующие методы защиты вроде кодов коррекции ошибок (ECC) или контрольных сумм защищают лишь память при хранении весов, но бессильны непосредственно в момент вычислений в процессоре. Аппаратное дублирование вычислительных блоков (как это реализовано в автопилотах Tesla) ведет к избыточному энергопотреблению и вносит критические задержки (latency), недопустимые в реальном времени.

Для верификации своего метода исследователи использовали программную среду симуляции физических сбоев «GoldenEye», проводя искусственные инъекции ошибок в процессоры. Устойчивость измерялась по метрикам Delta L и уверенности топ-2 предсказаний. По результатам тестов, предложенный метод семантической инициализации обеспечил среднее улучшение аппаратной отказоустойчивости в 5,5 раза (а на пике — до 14 раз). При этом падение точности на чистом железе составило ничтожные 0,3%, причем эта погрешность пришлась исключительно на сильно зашумленные исходные картинки, в которых нейросеть и изначально сомневалась.