На официальном стриме проекта Nemotron Labs ведущий Крис и приглашенные исследователи из компании NVIDIA подробно обсудили архитектуру, методы обучения и практическое применение новой мультимодальной модели Nemotron 3 Nano Omni. В дискуссии приняли участие Амла (Amla), исследователь в области прикладного глубокого обучения, Эсан (Essan), менеджер прикладных исследований, и Пратам Бисвас (Priam Biswas), специалист по глубокому обучению команды Edge-моделей.
👁️ Создание «зрения» и «слуха»: Процесс обучения Nemotron 3 Nano Omni 4:36
Переход от базовой модели Nano к версии Nano Omni потребовал внедрения механизмов, позволяющих ИИ одновременно обрабатывать визуальные и аудиоданные. Амла пояснила, что в основе Nemotron 3 Nano Omni лежат наработки предыдущих версий (V1 и V2), при этом фокус был смещен с обработки документов (V1) на более глубокое понимание контекста и общие ответы на вопросы (V2) .
Для обучения версии Omni команда использовала следующие методы:
- Очистка данных: Удаление «шумных» образцов из старых наборов данных для повышения точности .
- Расширение доменов: Особое внимание уделили пониманию графических интерфейсов (GUI), видео и логическому выводу (reasoning traces).
- Синтетическая генерация: Использование полностью синтетических пайплайнов для создания пар «вопрос-ответ» в нишах, которые плохо представлены в открытых данных .
Пратам Бисвас уточнил, что обучение проходило в несколько этапов: сначала SFT (инструктивное обучение) на коротких контекстах, затем на длинных . После этого применялись методы оптимизации предпочтений (RL) и алгоритм GRPO (Group Relative Policy Optimization) для усиления способностей модели к рассуждению .
⏱️ Терпоральное понимание: Как ИИ видит время 10:02
Одной из ключевых характеристик Nemotron 3 Nano Omni является «темпоральное понимание» (temporal understanding). По определению Пратама, это способность модели идентифицировать события в видеопоследовательности и понимать их хронологию .
Модель способна различать:
- Относительный порядок событий: что произошло раньше, а что позже.
- Точные метки времени: привязка событий к конкретным секундам.
- Сортировку аудиовизуальных событий: умение связывать звук и изображение в едином временном пространстве .
🧠 Мультимодальная архитектура и кросс-модальное мышление 11:09
Исследователи NVIDIA подчеркнули, что Nemotron 3 Nano Omni — это именно «омни»-модель, а не каскад из нескольких нейросетей. По словам Эсана, традиционный подход подразумевает использование отдельных моделей для распознавания речи (ASR), текста (LLM) и зрения (VLM), что делает систему громоздкой .
Технические особенности архитектуры включают:
- Энкодеры: Использование SigLIP для изображений и Parity для аудио .
- Перемешивание токенов (Interleaving): Токены зрения, текста и аудио подаются в LLM одновременно, что позволяет модели «видеть» и «слышать» всё сразу.
- Гибридная конфигурация Mamba-Transformer: Модель использует слои Mamba (17 MLP слоев в специфической конфигурации) для эффективности при длинных контекстах и классическое внимание (attention) для точности .
Эсан утверждает, что кросс-модальное мышление позволяет модели отвечать на сложные вопросы типа: «Что увидел свидетель в тот момент, когда на аудиофоне послышался звук сирены?» . Для этого ИИ должен одновременно обращаться и к визуальному, и к аудиальному каналам данных.
📊 Бенчмарки и реальные кейсы применения 13:22
Специалисты NVIDIA выделили несколько приоритетных направлений использования модели:
- Omni Captioning: Создание холистического описания видео сцена за сценой. Это полезно для автоматического составления отчетов по видеозаписям .
- Анализ взаимодействий: Модель демонстрирует высокие результаты в понимании взаимодействий «человек-объект» и «человек-человек», что применимо в анализе подкастов или спортивных трансляций .
- Безопасность: Амла подтвердила возможность использования модели для анализа записей камер наблюдения (например, описание причин ДТП), так как возможности густого аннотирования (dense captioning) уже встроены в систему .
Что касается тестов производительности, Nemotron 3 Nano Omni показала значительный рост в бенчмарке ScreenSpot Pro, увеличив результат с однозначного числа до 60 баллов . Также модель демонстрирует конкурентные показатели в LongBench (обработка длинных текстов) и OCR Bench 2 .
⚙️ Оптимизация и эффективность 44:12
Одной из главных проблем мультимодальных моделей является огромный объем данных: видео и аудио весят значительно больше текста. Для решения этой проблемы команда NVIDIA применила ряд оптимизаций:
- Temporal Token Compression: Использование конволюционных слоев (Conv3D) позволяет сжимать количество визуальных токенов во временной шкале в 2 раза .
- Efficient Video Sampling (EVS): Технология для повышения пропускной способности видео при инференсе .
- Архитектура MoE (Mixture of Experts):, Позволяет использовать только необходимые параметры для конкретной задачи, что делает инференс в 9 раз быстрее по сравнению с аналогичными моделями других разработчиков .
Для разработчиков, желающих адаптировать модель под свои задачи, NVIDIA рекомендует использовать полный Fine-tuning в рамках Megatron Bridge, если набор данных велик, или адаптеры LoRA для более мелких задач .