# Nemotron 3 Nano Omni: как NVIDIA наделила компактный ИИ глазами и ушами

Источник: https://www.youtube.com/watch?v=MulyE2A1bgU
Канал: NVIDIA Developer
Опубликовано: 13.05.2026

---

На официальном стриме проекта **Nemotron Labs** ведущий Крис и приглашенные исследователи из компании **NVIDIA** подробно обсудили архитектуру, методы обучения и практическое применение новой мультимодальной модели **Nemotron 3 Nano Omni**. В дискуссии приняли участие Амла (Amla), исследователь в области прикладного глубокого обучения, Эсан (Essan), менеджер прикладных исследований, и Пратам Бисвас (Priam Biswas), специалист по глубокому обучению команды Edge-моделей.

## 👁️ Создание «зрения» и «слуха»: Процесс обучения Nemotron 3 Nano Omni
[[JUMP:04:36]]

Переход от базовой модели Nano к версии Nano Omni потребовал внедрения механизмов, позволяющих ИИ одновременно обрабатывать визуальные и аудиоданные. Амла пояснила, что в основе Nemotron 3 Nano Omni лежат наработки предыдущих версий (V1 и V2), при этом фокус был смещен с обработки документов (V1) на более глубокое понимание контекста и общие ответы на вопросы (V2) [04:49]. 

Для обучения версии Omni команда использовала следующие методы:

*   **Очистка данных:** Удаление «шумных» образцов из старых наборов данных для повышения точности [05:04].
*   **Расширение доменов:** Особое внимание уделили пониманию графических интерфейсов (GUI), видео и логическому выводу (reasoning traces).
*   **Синтетическая генерация:** Использование полностью синтетических пайплайнов для создания пар «вопрос-ответ» в нишах, которые плохо представлены в открытых данных [05:57].

Пратам Бисвас уточнил, что обучение проходило в несколько этапов: сначала SFT (инструктивное обучение) на коротких контекстах, затем на длинных [08:09]. После этого применялись методы оптимизации предпочтений (RL) и алгоритм **GRPO** (Group Relative Policy Optimization) для усиления способностей модели к рассуждению [09:38].

## ⏱️ Терпоральное понимание: Как ИИ видит время
[[JUMP:10:02]]

Одной из ключевых характеристик Nemotron 3 Nano Omni является «темпоральное понимание» (temporal understanding). По определению Пратама, это способность модели идентифицировать события в видеопоследовательности и понимать их хронологию [10:16].

Модель способна различать:

1.  **Относительный порядок событий:** что произошло раньше, а что позже.
2.  **Точные метки времени:** привязка событий к конкретным секундам.
3.  **Сортировку аудиовизуальных событий:** умение связывать звук и изображение в едином временном пространстве [10:43].

## 🧠 Мультимодальная архитектура и кросс-модальное мышление
[[JUMP:11:09]]

Исследователи NVIDIA подчеркнули, что Nemotron 3 Nano Omni — это именно «омни»-модель, а не каскад из нескольких нейросетей. По словам Эсана, традиционный подход подразумевает использование отдельных моделей для распознавания речи (ASR), текста (LLM) и зрения (VLM), что делает систему громоздкой [36:24].

Технические особенности архитектуры включают:

*   **Энкодеры:** Использование SigLIP для изображений и Parity для аудио [11:48].
*   **Перемешивание токенов (Interleaving):** Токены зрения, текста и аудио подаются в LLM одновременно, что позволяет модели «видеть» и «слышать» всё сразу.
*   **Гибридная конфигурация Mamba-Transformer:** Модель использует слои Mamba (17 MLP слоев в специфической конфигурации) для эффективности при длинных контекстах и классическое внимание (attention) для точности [20:43].

Эсан утверждает, что кросс-модальное мышление позволяет модели отвечать на сложные вопросы типа: «Что увидел свидетель в тот момент, когда на аудиофоне послышался звук сирены?» [16:15]. Для этого ИИ должен одновременно обращаться и к визуальному, и к аудиальному каналам данных.

## 📊 Бенчмарки и реальные кейсы применения
[[JUMP:13:22]]

Специалисты NVIDIA выделили несколько приоритетных направлений использования модели:

*   **Omni Captioning:** Создание холистического описания видео сцена за сценой. Это полезно для автоматического составления отчетов по видеозаписям [14:15].
*   **Анализ взаимодействий:** Модель демонстрирует высокие результаты в понимании взаимодействий «человек-объект» и «человек-человек», что применимо в анализе подкастов или спортивных трансляций [14:42].
*   **Безопасность:** Амла подтвердила возможность использования модели для анализа записей камер наблюдения (например, описание причин ДТП), так как возможности густого аннотирования (dense captioning) уже встроены в систему [25:28].

Что касается тестов производительности, Nemotron 3 Nano Omni показала значительный рост в бенчмарке **ScreenSpot Pro**, увеличив результат с однозначного числа до 60 баллов [18:29]. Также модель демонстрирует конкурентные показатели в LongBench (обработка длинных текстов) и OCR Bench 2 [17:48].

## ⚙️ Оптимизация и эффективность
[[JUMP:44:12]]

Одной из главных проблем мультимодальных моделей является огромный объем данных: видео и аудио весят значительно больше текста. Для решения этой проблемы команда NVIDIA применила ряд оптимизаций:

1.  **Temporal Token Compression:** Использование конволюционных слоев (Conv3D) позволяет сжимать количество визуальных токенов во временной шкале в 2 раза [45:49].
2.  **Efficient Video Sampling (EVS):** Технология для повышения пропускной способности видео при инференсе [46:03].
3.  **Архитектура MoE (Mixture of Experts):**, Позволяет использовать только необходимые параметры для конкретной задачи, что делает инференс в 9 раз быстрее по сравнению с аналогичными моделями других разработчиков [47:10].

Для разработчиков, желающих адаптировать модель под свои задачи, NVIDIA рекомендует использовать полный Fine-tuning в рамках Megatron Bridge, если набор данных велик, или адаптеры LoRA для более мелких задач [22:40].