Nemotron 3 Nano Omni: как NVIDIA наделила компактный ИИ глазами и ушами

На официальном стриме проекта Nemotron Labs ведущий Крис и приглашенные исследователи из компании NVIDIA подробно обсудили архитектуру, методы обучения и практическое применение новой мультимодальной модели Nemotron 3 Nano Omni. В дискуссии приняли участие Амла (Amla), исследователь в области прикладного глубокого обучения, Эсан (Essan), менеджер прикладных исследований, и Пратам Бисвас (Priam Biswas), специалист по глубокому обучению команды Edge-моделей.

👁️ Создание «зрения» и «слуха»: Процесс обучения Nemotron 3 Nano Omni 4:36

Переход от базовой модели Nano к версии Nano Omni потребовал внедрения механизмов, позволяющих ИИ одновременно обрабатывать визуальные и аудиоданные. Амла пояснила, что в основе Nemotron 3 Nano Omni лежат наработки предыдущих версий (V1 и V2), при этом фокус был смещен с обработки документов (V1) на более глубокое понимание контекста и общие ответы на вопросы (V2) .

Для обучения версии Omni команда использовала следующие методы:

Очистка данных: Удаление «шумных» образцов из старых наборов данных для повышения точности .
Расширение доменов: Особое внимание уделили пониманию графических интерфейсов (GUI), видео и логическому выводу (reasoning traces).
Синтетическая генерация: Использование полностью синтетических пайплайнов для создания пар «вопрос-ответ» в нишах, которые плохо представлены в открытых данных .

Пратам Бисвас уточнил, что обучение проходило в несколько этапов: сначала SFT (инструктивное обучение) на коротких контекстах, затем на длинных . После этого применялись методы оптимизации предпочтений (RL) и алгоритм GRPO (Group Relative Policy Optimization) для усиления способностей модели к рассуждению .

⏱️ Терпоральное понимание: Как ИИ видит время 10:02

Одной из ключевых характеристик Nemotron 3 Nano Omni является «темпоральное понимание» (temporal understanding). По определению Пратама, это способность модели идентифицировать события в видеопоследовательности и понимать их хронологию .

Модель способна различать:

Относительный порядок событий: что произошло раньше, а что позже.
Точные метки времени: привязка событий к конкретным секундам.
Сортировку аудиовизуальных событий: умение связывать звук и изображение в едином временном пространстве .

🧠 Мультимодальная архитектура и кросс-модальное мышление 11:09

Исследователи NVIDIA подчеркнули, что Nemotron 3 Nano Omni — это именно «омни»-модель, а не каскад из нескольких нейросетей. По словам Эсана, традиционный подход подразумевает использование отдельных моделей для распознавания речи (ASR), текста (LLM) и зрения (VLM), что делает систему громоздкой .

Технические особенности архитектуры включают:

Энкодеры: Использование SigLIP для изображений и Parity для аудио .
Перемешивание токенов (Interleaving): Токены зрения, текста и аудио подаются в LLM одновременно, что позволяет модели «видеть» и «слышать» всё сразу.
Гибридная конфигурация Mamba-Transformer: Модель использует слои Mamba (17 MLP слоев в специфической конфигурации) для эффективности при длинных контекстах и классическое внимание (attention) для точности .

Эсан утверждает, что кросс-модальное мышление позволяет модели отвечать на сложные вопросы типа: «Что увидел свидетель в тот момент, когда на аудиофоне послышался звук сирены?» . Для этого ИИ должен одновременно обращаться и к визуальному, и к аудиальному каналам данных.

📊 Бенчмарки и реальные кейсы применения 13:22

Специалисты NVIDIA выделили несколько приоритетных направлений использования модели:

Omni Captioning: Создание холистического описания видео сцена за сценой. Это полезно для автоматического составления отчетов по видеозаписям .
Анализ взаимодействий: Модель демонстрирует высокие результаты в понимании взаимодействий «человек-объект» и «человек-человек», что применимо в анализе подкастов или спортивных трансляций .
Безопасность: Амла подтвердила возможность использования модели для анализа записей камер наблюдения (например, описание причин ДТП), так как возможности густого аннотирования (dense captioning) уже встроены в систему .

Что касается тестов производительности, Nemotron 3 Nano Omni показала значительный рост в бенчмарке ScreenSpot Pro, увеличив результат с однозначного числа до 60 баллов . Также модель демонстрирует конкурентные показатели в LongBench (обработка длинных текстов) и OCR Bench 2 .

⚙️ Оптимизация и эффективность 44:12

Одной из главных проблем мультимодальных моделей является огромный объем данных: видео и аудио весят значительно больше текста. Для решения этой проблемы команда NVIDIA применила ряд оптимизаций:

Temporal Token Compression: Использование конволюционных слоев (Conv3D) позволяет сжимать количество визуальных токенов во временной шкале в 2 раза .
Efficient Video Sampling (EVS): Технология для повышения пропускной способности видео при инференсе .
Архитектура MoE (Mixture of Experts):, Позволяет использовать только необходимые параметры для конкретной задачи, что делает инференс в 9 раз быстрее по сравнению с аналогичными моделями других разработчиков .

Для разработчиков, желающих адаптировать модель под свои задачи, NVIDIA рекомендует использовать полный Fine-tuning в рамках Megatron Bridge, если набор данных велик, или адаптеры LoRA для более мелких задач .