Nemotron 3 Nano Omni: как NVIDIA наделила компактный ИИ глазами и ушами

NVIDIA Developer 49 мин 3 мин 13.05.2026
Главное

На официальном стриме проекта Nemotron Labs ведущий Крис и приглашенные исследователи из компании NVIDIA подробно обсудили архитектуру, методы обучения и практическое применение новой мультимодальной модели Nemotron 3 Nano Omni. В дискуссии приняли участие Амла (Amla), исследователь в области прикладного глубокого обучения, Эсан (Essan), менеджер прикладных исследований, и Пратам Бисвас (Priam Biswas), специалист по глубокому обучению команды Edge-моделей.

👁️ Создание «зрения» и «слуха»: Процесс обучения Nemotron 3 Nano Omni 4:36

Переход от базовой модели Nano к версии Nano Omni потребовал внедрения механизмов, позволяющих ИИ одновременно обрабатывать визуальные и аудиоданные. Амла пояснила, что в основе Nemotron 3 Nano Omni лежат наработки предыдущих версий (V1 и V2), при этом фокус был смещен с обработки документов (V1) на более глубокое понимание контекста и общие ответы на вопросы (V2) .

Для обучения версии Omni команда использовала следующие методы:

Пратам Бисвас уточнил, что обучение проходило в несколько этапов: сначала SFT (инструктивное обучение) на коротких контекстах, затем на длинных . После этого применялись методы оптимизации предпочтений (RL) и алгоритм GRPO (Group Relative Policy Optimization) для усиления способностей модели к рассуждению .

⏱️ Терпоральное понимание: Как ИИ видит время 10:02

Одной из ключевых характеристик Nemotron 3 Nano Omni является «темпоральное понимание» (temporal understanding). По определению Пратама, это способность модели идентифицировать события в видеопоследовательности и понимать их хронологию .

Модель способна различать:

  1. Относительный порядок событий: что произошло раньше, а что позже.
  2. Точные метки времени: привязка событий к конкретным секундам.
  3. Сортировку аудиовизуальных событий: умение связывать звук и изображение в едином временном пространстве .

🧠 Мультимодальная архитектура и кросс-модальное мышление 11:09

Исследователи NVIDIA подчеркнули, что Nemotron 3 Nano Omni — это именно «омни»-модель, а не каскад из нескольких нейросетей. По словам Эсана, традиционный подход подразумевает использование отдельных моделей для распознавания речи (ASR), текста (LLM) и зрения (VLM), что делает систему громоздкой .

Технические особенности архитектуры включают:

Эсан утверждает, что кросс-модальное мышление позволяет модели отвечать на сложные вопросы типа: «Что увидел свидетель в тот момент, когда на аудиофоне послышался звук сирены?» . Для этого ИИ должен одновременно обращаться и к визуальному, и к аудиальному каналам данных.

📊 Бенчмарки и реальные кейсы применения 13:22

Специалисты NVIDIA выделили несколько приоритетных направлений использования модели:

Что касается тестов производительности, Nemotron 3 Nano Omni показала значительный рост в бенчмарке ScreenSpot Pro, увеличив результат с однозначного числа до 60 баллов . Также модель демонстрирует конкурентные показатели в LongBench (обработка длинных текстов) и OCR Bench 2 .

⚙️ Оптимизация и эффективность 44:12

Одной из главных проблем мультимодальных моделей является огромный объем данных: видео и аудио весят значительно больше текста. Для решения этой проблемы команда NVIDIA применила ряд оптимизаций:

  1. Temporal Token Compression: Использование конволюционных слоев (Conv3D) позволяет сжимать количество визуальных токенов во временной шкале в 2 раза .
  2. Efficient Video Sampling (EVS): Технология для повышения пропускной способности видео при инференсе .
  3. Архитектура MoE (Mixture of Experts):, Позволяет использовать только необходимые параметры для конкретной задачи, что делает инференс в 9 раз быстрее по сравнению с аналогичными моделями других разработчиков .

Для разработчиков, желающих адаптировать модель под свои задачи, NVIDIA рекомендует использовать полный Fine-tuning в рамках Megatron Bridge, если набор данных велик, или адаптеры LoRA для более мелких задач .

💬 Цитаты

«Если мы не обучаем на всех модальностях сразу, это не омни-модель.»

«Мы увеличили точность в ScreenSpot Pro с единичных показателей до 60 баллов.»

«Синтетические данные — это не просто генерация строк, это сложный процесс фильтрации с LLM в роли судьи.»

Пратам Бисвас 31:17
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
SFT (Supervised Fine-Tuning)
Метод дообучения модели на заранее размеченных инструкциях.
MoE (Mixture of Experts)
Архитектура нейросети, где для каждого запроса активируется только часть наиболее подходящих подсетей.
Conv3D
Трехмерные сверточные слои, используемые для обработки видео и учета временной составляющей.
LoRA
Метод низкоранговой адаптации, позволяющий быстро дообучать модели с минимальными затратами ресурсов.
📊 Цифры
🗓 Хронология
  1. V1 Выпуск модели, ориентированной на обработку документов (OCR).
  2. V2 Добавление возможностей обоснования (grounding) и ответов на общие вопросы.
  3. 2024 Релиз Nemotron 3 Nano Omni с нативной поддержкой аудио и видео через единый контекст.
⚖️ Другая сторона
Искусственный интеллект Nvidia Nemotron 3 Nano Omni Mamba architecture Conv3D compression MoE