Как трансформеры и технология NeRF меняют современное компьютерное зрение

В рамках ежегодной серии выпусков «AI Rewind» на подкасте The TWIML AI Podcast ведущий Сэм обсудил главные итоги и тенденции в области компьютерного зрения за прошедший год с исследовательницей из Meta AI Джорджией Гкиоксари. В центре дискуссии оказались взрывной рост популярности нейронных полей излучения (NeRF), адаптация архитектуры трансформеров для визуальных задач и назревшая необходимость радикальной смены парадигмы в академических исследованиях. Собеседники подробно разобрали, почему индустрия должна отказаться от слепой погони за процентами точности на устаревших датасетах и как новые аппаратные решения вроде датчиков LiDAR в смартфонах изменят сбор данных.

🧊 Взрывной рост NeRF и революция в 3D-графике 2:37

Одним из самых ярких и влиятельных технологических прорывов года Джорджия Гкиоксари назвала взрывную популярность технологии NeRF (Neural Radiance Fields — нейронные поля излучения). Хотя этот подход зародился на стыке компьютерного зрения и трехмерной графики, его влияние вышло далеко за рамки первоначальных задач. Суть метода заключается в фотореалистичной реконструкции трехмерной сцены на основе набора двумерных снимков с использованием неявных функций и объемного рендеринга (volumetric rendering).

Несмотря на то, что теоретически для работы алгоритма нужны «всего несколько» изображений, на практике, как уточняет Гкиоксари, для качественной реконструкции требуется от 100 до 200 фотографий. Процесс устроен следующим образом:

Пользователь делает серию снимков объекта со всех сторон, желательно обеспечивая обзор в 360 градусов.
Специализированные системы, такие как COLMAP, в автономном режиме вычисляют точные позы камеры для каждого кадра.
На основе этих данных алгоритм строит неявное (implicit) трехмерное представление сцены, которое не является привычной полигональной сеткой (mesh) или воксельной моделью.

С технической точки зрения технология опирается на глубовое обучение. Архитектура представляет собой многослойный перцептрон (MLP), который принимает на вход трехмерные координаты точки $(x, y, z)$ и направление взгляда, а на выходе выдает цвет в формате RGB и плотность (оценку того, заполнено ли пространство объектом или оно пустое). Пропуская лучи через эту модель, система способна с высокой точностью синтезировать изображение сцены с любого нового ракурса, сохраняя реалистичность текстур и освещения.

По оценке Гкиоксари, оригинальная статья по NeRF вышла еще в 2020 году, однако в течение следующего года сообщество выпустило массу дорабатывающих ее исследований. Ученые пытаются решить ключевые проблемы метода:

Уменьшение количества необходимых для обучения ракурсов.
Ускорение процессов обработки и генерации.
Снижение объемов потребляемой оперативной памяти.

Гостья подкаста выразила уверенность, что в течение ближайших пяти лет технология NeRF полностью трансформирует индустрию визуальных эффектов в Голливуде и сферу разработки компьютерных игр. По ее мнению, метод значительно упрощает и ускоряет адаптацию графических движков под новые локации. Уже сейчас исследователи выходят за рамки статического рендеринга, обучая NeRF работать с динамическими (движущимися) сценами, изменять материалы объектов «на лету», менять условия освещения и даже дорисовывать скрытые части пространства.

🤖 Трансформеры в компьютерном зрении: преодоление жестких допущений 11:39

Вторым фундаментальным трендом года стало окончательное укоренение архитектуры трансформеров в задачах компьютерного зрения. Данная технология, изначально созданная для обработки естественного языка (NLP), теперь активно вытесняет классические сверточные нейросети (CNN) в задачах распознавания образов.

Джорджия Гкиоксари подчеркнула, что трансформеры демонстрируют колоссальную эффективность при работе с гигантскими объемами данных, измеряемыми сотнями миллионов изображений. При этом вопрос о том, способны ли трансформеры показывать хорошие результаты в условиях дефицита данных, по ее словам, до сих пор остается открытым для науки.

Главное отличие между двумя подходами кроется в структурных допущениях (inductive biases). Собеседники зафиксировали ключевые технологические различия:

Сверточные нейросети (CNN) жестко ограничены самой структурой свертки и сеткой пикселей, что накладывает на модель определенные рамки.
Трансформеры воспринимают картинку как последовательность отдельных токенов — небольших кусочков или патчей изображения.
Единственное ограничение вводится на этапе сериализации изображения и добавления позиционного кодирования (position embeddings), в то время как все остальные операции вычисления внимания носят глобальный характер.

Отсутствие жестких структурных допущений делает трансформеры гораздо более мощными универсальными аппроксиматорами функций, сопоставимыми по гибкости с полносвязными сетями. Однако за эту свободу приходится платить кратным увеличением требований к объему обучающей выборки.

🔄 Кризис методологии: почему ImageNet тормозит научный прогресс 15:52

Обсуждая успехи трансформеров, Джорджия Гкиоксари провела детальное сравнение между сферами NLP и компьютерного зрения, указав на серьезный методологический тупик в последней. В индустрии обработки текста алгоритмы вроде BERT обучаются на колоссальных неразмеченных массивах данных, собранных со всего интернета, и проверяются на множестве разнородных задач — от ответов на вопросы до генерации связных текстов. Глобальное представление данных помогает эффективно решать все эти разноплановые задачи.

В компьютерном зрении ситуация выглядит иначе. По мнению Гкиоксари, исследовательское сообщество оказалось в «странной и неловкой фазе» слепого копирования подходов из NLP при отсутствии адекватной базы данных. Главным публичным датасетом индустрии на протяжении последних 10 лет остается ImageNet, содержащий всего 1 миллион изображений. Гостья выделила ключевые проблемы долгого использования этой базы:

ImageNet является застывшим во времени статичным набором данных, из-за чего новые архитектуры начинают неизбежно переобучаться под его специфику.
Многие зафиксированные улучшения точности на ImageNet не переносятся на реальные практические задачи.
Большинство базовых задач в компьютерном зрении (даже детекция объектов с bounding boxes или сегментация) в конечном счете сводятся к банальной классификации, лишая модели гибкости.

В качестве примера успешного преодоления этого барьера Гкиоксари привела модель CLIP от OpenAI, которая обучалась на закрытом проприетарном датасете из 250 миллионов пар «изображение-текст», собранных из сети. CLIP продемонстрировал уникальное свойство совместного кодирования визуала и текста, доказав, что для качественного скачка исследователям необходимо уходить от стандартного режима ImageNet.

Сбор и публикация таких масштабных открытых датасетов сегодня наталкиваются на серьезные препятствия. Ученые обязаны учитывать вопросы авторских прав, согласия создателей контента, этики, предвзятости данных и потенциального вреда от создаваемых моделей. Джорджия Гкиоксари считает, что это накладывает на разработчиков колоссальную ответственность и замедляет прогресс.

Для решения проблемы Гкиоксари предлагает переосмыслить так называемые «промежуточные задачи» (pretext tasks). Недавние работы Кэймина Хэ (Kaiming He) и его коллег по маскированным автокодировщикам (Masked Autoencoders, MAE), где нейросеть заставляют восстанавливать скрытые случайные патчи изображения, показывают отличные результаты, но все еще ограничены предсказанием пикселей. Гостья убеждена, что для перехода к сложному трехмерному анализу и пониманию сцен одних лишь пиксельных предсказаний и простых текстовых меток будет недостаточно.

🔗 Феномен CLIP и архитектурное объединение модальностей 25:09

Модель CLIP от команды OpenAI заслужила от Джорджии Гкиоксари статус ее самого любимого научного труда за последние два года. Главная ценность работы, по ее мнению, состоит в отказе от парадигмы «картинка в обмен на одну текстовую метку» и переходе к семантически богатым текстовым описаниям.

Технологический прорыв CLIP обусловлен использованием контрастивного обучения (contrastive learning) вместо классической генерации текстовых описаний по картинке. Генерация предложений требует огромных вычислительных мощностей и моделей гигантской емкости. OpenAI пошли иным путем:

Текстовое предложение и изображение кодируются двумя независимыми нейросетями.
Обучение строится на максимизации косинусного сходства (cosine similarity) между правильными парами «картинка-текст».
В то же время эмбеддинги не связанных между собой пар из датасета принудительно отдаляются друг от друга в векторном пространстве.

На базе CLIP уже создаются прикладные творческие инструменты. Гкиоксари упомянула исследование Раны Хануки (Rana Hanocka) из Чикаго, чья команда научилась генерировать текстурированные 3D-модели по текстовому запросу. В качестве курьеза гостья описала пример, когда по запросу «юрист» алгоритм успешно трансформировал стандартную полигональную сетку человека, придав лицу строгое выражение и «одев» модель в деловой костюм.

Среди других важнейших публикаций года были отмечены ViT (Vision Transformer), заложивший основу применения трансформеров к изображениям через деление их на патчи размером 16x16 пикселей, и Swin Transformer от Microsoft. Последний за счет иерархической структуры и работы на нескольких масштабах разрешения позволил эффективно адаптировать трансформеры под классические задачи детекции и сегментации.

🌍 Призыв к радикальным переменам: отказ от «борьбы за проценты» и курс на Метаверс 32:16

В ходе подкаста Джорджия Гкиоксари выступила с эмоциональной критикой текущего состояния академической науки. По ее мнению, исследовательскому сообществу пора прекратить бессмысленное выжигание серверных мощностей TPU ради улучшения результатов на устоявшихся бенчмарках на доли процента.

«Я устала видеть статьи, состоящие из бесконечных таблиц, ради демонстрации прироста эффективности в один процентный пункт. Кого это вообще волнует? Бенчмарки нужны для быстрой проверки идей, а не для того, чтобы забивать их до смерти, сжигая часы TPU и растапливая льды Антарктиды», — заявила исследовательница.

Гкиоксари призвала коллег обратить пристальное внимание на видеоконтент, который сейчас используется крайне неэффективно. В современной практике огромный массив данных из видео зачастую сжимается до единственного ярлыка классификации (например, «бег»), что гостья назвала «абсолютно противоестественным и грустным» подходом, упускающим всю глубину пиксельной информации.

Такая стагнация связана с тем, что ImageNet создавался 10 лет назад под конкретные нужды ИТ-гигантов (Google, Facebook) эпохи «Интернета 2.0» — им требовались инструменты для автоматической модерации контента, выявления насилия и порнографии, а также таргетирования рекламы. Сегодня индустрия выходит на новый этап. Вектор развития, заданный объявлением Meta о создании метавселенной (metaverse), требует совершенно иных технологий. По заверению Гкиоксари, построить метаверс с помощью простых алгоритмов классификации невозможно.

Главным преимуществом трансформеров в данном контексте гостья считает не столько прирост точности, сколько архитектурное объединение различных типов данных. Раньше обработка звука, текста и видео требовала абсолютно разных, не связанных между собой нейросетевых архитектур, что мешало ученым из разных сфер понимать публикации друг друга. Трансформеры стерли эти границы, позволив легко создавать единые мультимодальные системы, комбинирующие RGB-видеопотоки, аудиодорожки и данные сенсоров глубины.

📱 Аппаратная революция: LiDAR в кармане и эпоха RGB-D данных 42:09

Будущее компьютерного зрения неразрывно связано с переходом в полноценное 3D-пространство. Основным сдерживающим фактором здесь долгое время выступало отсутствие масштабных трехмерных датасетов. Однако, как подчеркивает Гкиоксари, ситуация стремительно меняется благодаря прогрессу в потребительском компьютерном железе.

В качестве примера гостья продемонстрировала свой iPhone 13, оснащенный встроенной камерой LiDAR, которая способна напрямую фиксировать глубину сцены. Миллионы людей по всему миру теперь носят в карманах продвинутые трехмерные сенсоры, даже не подозревая об их технических возможностях. Исследовательница спрогнозировала, что уже через 2–3 года научное сообщество полностью перейдет от обсуждения стандартных плоских RGB-изображений к работе со специфическим форматом RGB-D (где D — это Depth, глубина).

На текущий момент форматы хранения и передачи данных глубины у крупных технологических компаний остаются закрытыми или неочевидными. Тем не менее, коммерческий и продуктовый интерес к этой сфере огромен. Данные LiDAR уже используются для создания продвинутых эффектов в соцсетях:

Реализация динамического фокуса при фотосъемке.
Создание «трехмерных фотографий» с эффектом изменения перспективы при наклоне экрана.
Качественный рендеринг объектов дополненной реальности (AR/VR).

Отвечая на теоретический вопрос Сэма о взаимосвязи двух пространств, Джорджия Гкиоксари согласилась с гипотезой, что успешное решение задач трехмерного понимания автоматически и бесплатно закроет все потребности классического двумерного компьютерного зрения, поскольку формат 2D является лишь упрощенным, плоским отображением трехмерного мира.

🤖 Робототехника, коммерческие стартапы и независимая этика AI 49:36

Несмотря на скрытность коммерческого сектора, Гкиоксари и Сэм сошлись во мнении, что индустрия автономного транспорта (self-driving) продолжает делать колоссальные шаги вперед, умело скрывая свои лучшие наработки от научных публикаций. Собеседники выстроили историческую триаду ключевых драйверов развития компьютерного зрения: от модерации веб-контента на заре технологии к беспилотным автомобилям, а затем — к метаверсу.

В ценении перспектив полной автономии транспорта позиции спикеров разделились:

Сэм высказал консервативный взгляд, отметив, что массовое внедрение беспилотников упрется в бесконечное количество дорожных «крайних случаев» (edge cases), а также в регуляторные, страховые и юридические барьеры.
Джорджия Гкиоксари выразила больше оптимизма по поводу инженерной части, посчитав, что ученые решат проблему редких дорожных ситуаций относительно скоро.
При этом гостья согласилась, что преодоление политического и регуляторного сопротивления чиновников на данный момент выглядит как почти невыполнимая задача.

Огромный всплеск коммерческой активности Гкиоксари фиксирует в сфере практической робототехники, что стало возможным благодаря появлению на рынке относительно дешевых готовых робо-платформ для быстрого прототипирования. Среди наиболее примечательных проектов гостья выделила логистический стартап Covariant, основанный профессором Питером Аббилом (Pieter Abbeel) и сфокусированный на интеллектуальных системах сортировки (pick-and-place).

Другим вдохновляющим примером был назван молодой стартап, разрабатывающий автономные подводные дроны. Эти аппараты запускаются в океан для высокоточного трехмерного картирования коралловых рифов, фиксации масштабов экологического ущерба от глобального потепления и оперативного оповещения ученых для проактивной защиты экосистем.

В завершение беседы спикеры затронули тему ответственного искусственного интеллекта. Исследовательница Meta AI подчеркнула, что в эпоху тотального сбора веб-данных вопросы этики не могут оставаться факультативными задачами, которыми занимаются два человека на тысячу сотрудников. Она выразила огромную поддержку Тимнит Гебру (Timnit Gebru), которая за несколько недель до интервью объявила о запуске собственной независимой исследовательской организации. По мнению Гкиоксари, именно такие свободные от диктата корпораций институты способны сформировать культуру ответственной разработки AI.

Финальным прогнозом исследовательницы на будущие годы стало предсказание неизбежного наступления «момента BERT» в компьютерном зрении. Она убеждена, что текущее состояние индустрии напоминает затишье перед бурей 2012 года, когда появление ImageNet навсегда изменило мир ИТ. Рождение гигантской открытой мультимодальной базы данных нового поколения должно спровоцировать долгожданный тектонический сдвиг в технологиях искусственного интеллекта.