Янник Килчер на NeurIPS 2023: главные тренды нейросетей

Yannic Kilcher 10,6 тыс. 44 мин 11 мин 16.12.2023
Главное

Крупнейшая международная конференция по искусственному интеллекту NeurIPS 2023 традиционно стала местом презентации самых передовых и неожиданных ИТ-исследований. Известный блогер и исследователь Янник Килчер провел детальный обзор второй постерной сессии, пообщавшись с авторами наиболее перспективных научных работ. В центре внимания оказались как прикладные технологии редактирования изображений и повышения отказоустойчивости «железа», так и глубокие теоретические изыскания в области динамики нейросетей.

📉 Борьба с хаосом: почему «взрывается» обучение рекуррентных сетей 0:01

Обучение рекуррентных нейронных сетей (RNN) часто сопровождается внезапными и необъяснимыми скачками функции потерь. Группа исследователей решила выяснить фундаментальную математическую причину этого явления. Для экспериментов они выбрали стандартные RNN с активацией ReLU, поскольку для них существует точное аналитическое решение в закрытой форме для поиска неподвижных точек и K-циклов. В качестве тестовых данных использовались как синтетические системы (например, система Лоренца), так и реальные временные ряды, включая записи электрического потенциала клеточных мембран.

По определению авторов работы, бифуркация представляет собой качественное изменение динамического поведения системы — например, переход от стабильной неподвижной точки к циклическому поведению. В процессе обучения исследователи зафиксировали аномальные скачки loss-функции, когда показатель устремлялся практически к бесконечности. Как утверждает спикер, подобные «неровности» ландшафта потерь наблюдаются практически всегда при обучении RNN, даже на задачах обработки естественного языка, хотя столь экстремальные расхождения встречаются редко.

Аналитический расчет всех динамических объектов в 100-мерной сети ReLU крайне затруднителен, поскольку сложность масштабируется как $2^D$, где $D$ — размерность пространства. Чтобы обойти это ограничение, ученые разработали оригинальный эвристический алгоритм:

Эксперименты показали, что данный метод масштабируется значительно лучше случайного поиска. В полностью обученной системе исследователи смогли обнаружить сложные динамические структуры: стабильный 39-цикл (описывающий регулярные спайки мембраны), стабильную неподвижную точку, а также нестабильные 9- и 39-циклы. По мнению автора, некоторые из этих циклов могут оказаться просто артефактами обучения, что требует дальнейшего изучения.

Главным практическим выводом работы стало объяснение эффективности метода обобщенного принудительного обучения (generalized teacher forcing), представленного на конференции ICML. Исследователи математически доказали, что при правильном подборе коэффициента $\alpha$ этот метод сглаживает ландшафт потерь и полностью устраняет вырожденную транскритическую бифуркацию, которая и вызывает катастрофические скачки loss-функции, делая обучение RNN быстрее и стабильнее.


🎨 Умное редактирование: как технология L++ меняет реальные изображения 8:43

Технология семантического руководства (semantic guidance) традиционно применяется для изменения изображений непосредственно в латентном пространстве диффузионных моделей, однако ранее это работало преимущественно на сгенерированных кадрах. Новый метод под названием L++ адаптирует данный подход для редактирования реальных фотографий. Главным новшеством работы стало внедрение инверсии на базе DPM-Solver++, что позволяет вернуть реальный снимок в латентное пространство всего за 50 шагов или даже меньше. Метод совместим с любыми предопределенными текстовыми диффузорами, включая Stable Diffusion 1.5, 2.0 и XL.

Вся магия L++ происходит прямо во время инференса: технология не требует предварительного обучения или тонкой настройки архитектуры. Модель способна выполнять несколько независимых правок за один проход — к примеру, превратить Яна Лекуна в Джорджа Клуни и одновременно «надеть» на него солнцезащитные очки.

Важным технологическим прорывом авторы называют концепцию семантического заземления (semantic grounding). Для локализации изменений используются встроенные карты внимания из блока UNet и шумовые маски, которые достаются разработчикам абсолютно бесплатно. По словам спикеров, пользователю больше не нужно вручную сегментировать объекты или рисовать маски:

Если отключить семантическое заземление, то изменения начинают «растекаться» по всему кадру: например, розовый оттенок сакуры может проявиться в бликах на автомобильных фарах. Усреднение масок UNet и шума позволяет жестко локализовать правки. Процесс инверсии реального кадра занимает около одной секунды и происходит без ошибок восстановления, после чего полученные латентные коды можно использовать для бесконечного числа бесплатных и быстрых манипуляций.


🔤 Языковые модели без фиксированных эмбеддингов: сила контекста 13:48

Со времен появления алгоритма Word2Vec классические языковые модели жестко привязаны к фиксированным токенам, где каждому слову или символу соответствует постоянный вектор в многомерном пространстве. Авторы исследования Lexi-Varies задались фундаментальным вопросом: может ли большая языковая модель эффективно функционировать, если полностью лишить токены фиксированной идентичности?. В такой парадигме токен не имеет статического значения и определяет себя исключительно через паттерны взаимодействия с окружением внутри конкретного контекста.

Для реализации этой концепции исследователи заменили стандартный слой эмбеддингов в Трансформере на генератор случайных гауссовых векторов. Архитектура работает следующим образом:

  1. В рамках одной последовательности одинаковые символы (например, буква «e») получают один и тот же случайно сгенерированный гауссов вектор.
  2. При переходе к любой другой последовательности для той же буквы «e» генерируется совершенно новый, независимый случайный вектор.

К удивлению научного сообщества, экспериментальные данные показали, что модель Lexi-Varies успешно конвергирует и не уступает стандартным Трансформерам в задаче предсказания следующего токена. Однако у подхода есть жесткое ограничение: модель принципиально неспособна предсказать символ, который еще ни разу не встречался в текущем контексте. Именно поэтому для ее работы требуются очень длинные контекстные окна.

Как утверждают разработчики, Lexi-Varies демонстрирует феноменальные результаты в задачах инконтекстного взлома шифров подстановки (substitution cipher), воспринимая любые зашифрованные вариации как одну и ту же последовательность. Ключ шифра можно легко извлечь, обучив простую линейную модель поверх «замороженных» эмбеддингов Трансформера. Кроме того, модель показала четырехкратное преимущество в специализированных тестах на манипуляцию символами, таких как перестановки и чтение таблиц поиска. По мнению автора канала Янника Килчера, это доказывает, что человеческий язык в гораздо большей степени состоит из чистых взаимосвязей между элементами, нежели из абсолютных значений конкретных слов.


🧠 Теория трансформеров: внутриконтекстное обучение как градиентный спуск 19:15

Феномен внутриконтекстного обучения (In-Context Learning), когда модель осваивает новые навыки прямо на лету из текста промпта без обновления весов, долгое время оставался загадкой. Автор следующего доклада математически доказал, что Трансформеры в процессе внутриконтекстного обучения фактически послойно реализуют алгоритм преобусловленного градиентного спуска (preconditioned gradient descent).

Для проверки этой гипотезы ученые обучили Трансформер решать классическую задачу наименьших квадратов (least squares problem). В качестве входных данных модели подавались пары примеров $(x_i, y_i)$, а на выходе она должна была предсказать значение $y_{n+1}$ для нового вектора $x_{n+1}$. По словам исследователя, по мере увеличения количества слоев в сети, активации начинают в точности повторять шаги оптимизационного алгоритма.

В работе четко разграничиваются два процесса:

Исследователи детально проследили, как меняется значение целевой переменной $y$ от слоя к слою. В самом начале (на первом слое) оно условно равно нулю, но затем планомерно обновляется, что математически эквивалентно проекции шага градиента на вектор $x_{n+1}$. С теоретической точки зрения для однослойного Трансформера ученым удалось доказать, что глобальный оптимум сети в точности совпадает с шагом преобусловленного градиентного спуска. Для многослойных архитектур доказательство пока слабее — оно гарантирует лишь достижение стационарной точки, однако практические тесты подтверждают, что глубокие модели успешно сходятся именно к этой структуре.


🗳️ Сверхчеловеческая оценка: датасет Pick-a-Pic и закат метрики FID 23:31

Использование человеческих предпочтений (RLHF) произвело революцию в текстовых языковых моделях, однако в сфере генерации изображений долгое время отсутствовали масштабные открытые наборы данных такого типа. Чтобы решить эту проблему, группа исследователей создала общедоступный веб-сайт с бесплатной генерацией картинок. Единственным условием для пользователей было обязательное голосование: чтобы увидеть следующее изображение, нужно было выбрать наиболее удачный вариант из двух предложенных генераций по их запросу.

В результате эксперимента удалось собрать датасет Pick-a-Pic, содержащий более 1 миллиона реальных человеческих предпочтений. Как отмечают авторы, эти данные разительно отличаются от классического набора MS COCO: пользовательские промпты живые, разнообразные, часто забавные или пугающие, а не скучно-описательные.

На базе собранной информации исследователи обучили функцию вознаграждения PickScore, использующую архитектуру CLIP и целевую функцию, аналогичную InstructGPT. В ходе тестирования выяснилось, что PickScore предсказывает выбор людей лучше, чем любые существующие аналоги, и даже точнее, чем наемные эксперты-разметчики (crowd workers). По мнению создателей, этот парадокс объясняется тем, что у автора промпта изначально заложено гораздо больше скрытого контекста и ожиданий в голове, чем у стороннего асессора, и PickScore умудряется улавливать эти тонкие намерения.

Авторы работы выступили с жесткой критикой общепринятого стандарта оценки генеративных моделей — метрики FID (Fréchet Inception Distance). По их мнению, FID является крайне плохой метрикой, поскольку она оценивает лишь общее распределение картинок и вообще не учитывает текстовый промпт. Более того, при усреднении FID часто демонстрирует отрицательную корреляцию с реальным выбором людей.

В качестве альтернативы ученые предлагают революционный протокол:

Даже самое простое применение PickScore — генерация нескольких картинок базовой моделью и автоматический выбор лучшей по оценке реворд-модели — наглядно повышает качество результата по сравнению с ванильными моделями или стандартными эстетическими предикторами. Продукт уже получил широкое признание в индустрии: PickScore интегрирован в бенчмарки для редактирования видео, а сторонние команды (например, Woo et al.) успешно применили его для улучшения модели SDXL через алгоритм DPO.


🗺️ ИИ в роли Geoguessr: глобальная геолокация по одной фотографии 30:47

Определение точных GPS-координат (широты и долготы) места съемки по одной фотографии — сложнейшая задача компьютерного зрения. Существующие подходы обычно используют метод классификации: разбивают земной шар на фиксированную сетку (грид) и определяют принадлежность фото к конкретному квадрату. Однако, как утверждают авторы нового проекта, такой подход страдает от жесткой привязки к центрам сеток и ограниченного числа классов. Полноценный поиск «изображение-в-изображение» также невозможен, так как физически нельзя хранить галерею всех ракурсов планеты.

Исследователи предложили принципиально иной подход: поиск координат напрямую (Image-to-GPS retrieval). Картинка кодируется с помощью CLIP-модели, а галерея GPS-координат пропускается через специально разработанный пространственный Location Encoder, после чего система обучается с помощью контрастивного лосса.

Ключевой инновацией стала архитектура кодировщика координат, которая переводит 2D-точки в многомерные эмбеддинги:

Поскольку графический энкодер изначально выровнен с текстовым пространством CLIP, вместо картинки в систему можно загрузить обычный текст без какого-либо дообучения. Запрос «пустыня» или название конкретного города мгновенно формирует глобальную тепловую карту вероятностей по всему миру.

При формировании базы координат авторы отказались от равномерного покрытия Земли. Они задействовали априорное знание о плотности расселения людей, взяв за основу распределение точек из тренировочного набора Google Street View. Это позволило исключить из галереи необитаемые зоны вроде океанов и сконцентрировать вычислительные ресурсы на релевантных участках. Янник Килчер в шутку предложил разработчикам вызвать на дуэль в Geoguessr знаменитых топ-игроков вроде блогера Rainbolt, на что авторы с улыбкой ответили, что были бы рады испытать свой ИИ в таком поединке.


⚡ Защита от сбоев железа: как GPT-3 делает нейросети устойчивыми к дефектам 37:10

При развертывании нейросетей на реальном оборудовании (например, в бортовых компьютерах беспилотных автомобилей) критически важной становится проблема аппаратной стабильности. Просадки напряжения, температурный износ и производственные дефекты чипов вызывают так называемые «тихие искажения данных» (Silent Data Corruptions) и инверсию бит (bit flips). Система при этом не завершает работу аварийно, но начинает выдавать катастрофически неверные предсказания: к примеру, беспилотный автомобиль может внезапно поехать на высокой скорости там, где это запрещено.

Разработчики представили изящное софтверное решение этой хардверной проблемы. Вместо случайной инициализации весов последнего классификационного слоя нейросети, они предложили инициализировать его семантическими эмбеддингами, полученными на основе текстовых описаний классов.

Процесс подготовки модели выглядит так:

  1. Для каждого целевого класса (например, из 10 доступных в датасете) через GPT-3 генерируется массив детальных текстовых описаний.
  2. Полученные тексты пропускаются через текстовый кодировщик CLIP для извлечения смысловых векторов.
  3. Векторы усредняются, формируя максимально стабильный и информативный семантический портрет каждого класса, который и записывается в веса проекционного слоя перед финальным обучением.

Как объясняют авторы, если аппаратный сбой (инверсия бита) происходит на начальных или промежуточных сверточных слоях, математика сети и функции активации типа ReLU с высокой долей вероятности способны нивелировать и «загасить» эту ошибку в процессе дальнейших вычислений. Однако финальный слой абсолютно беззащитен перед аппаратными дефектами, так как напрямую формирует итоговый вердикт модели. Фокусировка на защите этого уязвимого звена кардинально повышает общую стойкость системы.

Существующие методы защиты вроде кодов коррекции ошибок (ECC) или контрольных сумм защищают лишь память при хранении весов, но бессильны непосредственно в момент вычислений в процессоре. Аппаратное дублирование вычислительных блоков (как это реализовано в автопилотах Tesla) ведет к избыточному энергопотреблению и вносит критические задержки (latency), недопустимые в реальном времени.

Для верификации своего метода исследователи использовали программную среду симуляции физических сбоев «GoldenEye», проводя искусственные инъекции ошибок в процессоры. Устойчивость измерялась по метрикам Delta L и уверенности топ-2 предсказаний. По результатам тестов, предложенный метод семантической инициализации обеспечил среднее улучшение аппаратной отказоустойчивости в 5,5 раза (а на пике — до 14 раз). При этом падение точности на чистом железе составило ничтожные 0,3%, причем эта погрешность пришлась исключительно на сильно зашумленные исходные картинки, в которых нейросеть и изначально сомневалась.

💬 Цитаты

«По мнению автора канала Янника Килчера, это доказывает, что человеческий язык в гораздо большей степени состоит из чистых взаимосвязей между элементами, нежели из абсолютных значений конкретных слов.»

Янник Килчер 19:01
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Бифуркация
Качественное изменение поведения динамической системы при изменении ее внутренних параметров.
Инверсия в диффузионных моделях
Математический процесс перевода готового реального изображения обратно в случайный шум для его последующего редактирования нейросетью.
Эмбеддинг
Преобразование объекта (слова, картинки, координаты) в вектор числовых значений для понимания компьютером.
Внутриконтекстное обучение (In-Context Learning)
Способность нейросети адаптироваться к новой задаче на основе примеров в тексте запроса без изменения своих постоянных весов.
Тихие искажения данных (Silent Data Corruptions)
Аппаратные ошибки в процессоре или памяти, которые не вызывают падения операционной системы, но незаметно искажают результаты вычислений.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект NeurIPS 2023 Янник Кильхер Stable Diffusion Transformers