«Синтетика вместо реальности»: Как Unity ускоряет обучение нейросетей

The TWIML AI Podcast 5,8 тыс. 57 мин 3 мин 08.09.2022
Главное

Синтетические данные в компьютерном зрении: революция от Unity 0:00

Традиционное обучение моделей компьютерного зрения (CV) сегодня сталкивается с серьезным барьером — зависимостью от огромных объемов размеченных данных. Сбор и ручная аннотация миллионов изображений обходятся компаниям крайне дорого, требуют месяцев работы и часто сопряжены с проблемами приватности или отсутствием данных для редких сценариев. Джеймс Форт (старший менеджер по продукту) и Джонатан Хоганс (старший инженер команды Perception) из Unity утверждают, что синтетические данные позволяют полностью переосмыслить этот процесс, делая его быстрее и дешевле.

Проблема данных в современном CV 0:13

Компьютерное зрение проникает во все индустрии: от автономного вождения и робототехники до ритейла и систем безопасности. Однако реальный мир не всегда может предоставить нужные данные.

Основные сложности с реальными данными:

Синтетический подход и рандомизация домена 6:43

Вместо сбора данных Unity предлагает генерировать их в виртуальной среде. Система позволяет создавать миллионы идеально размеченных изображений автоматически — аннотации ( bounding boxes, сегментационные маски) «идут в комплекте» с рендерингом.

Ключевым методом здесь выступает доменная рандомизация:

Такой подход вынуждает нейросеть фокусироваться на целевых объектах, а не на особенностях конкретного окружения, что повышает общую обобщающую способность модели.

Кейс: от аэрокосмических дефектов до продуктовых полок 15:14

Unity успешно применяет Perception SDK для прикладных задач. Один из клиентов использовал систему для создания приложения на iPad, которое «привязывается» к самолету для фиксации дефектов корпуса. Реальные фото ангаров не давали нужного разнообразия углов и освещения. С помощью Unity были сгенерированы 10 000 изображений с рандомизированными условиями освещения, фоном и положением камеры, что позволило успешно обучить модель.

Инструментарий Unity Perception 17:16

Набор инструментов Unity для генерации данных включает:

  1. Perception Package: Open-source инструмент для Unity, поддерживающий URP и HDRP. Позволяет добавлять labelers (для bounding boxes, сегментации) к объектам в сцене.
  2. Dataset Insights: Python-пакет для Jupyter Notebooks. Позволяет анализировать созданный датасет: проверять статистику, распределение объектов и визуализировать результаты до того, как данные попадут в дорогостоящее обучение.
  3. Сценарии и рандомайзеры: Готовые компоненты для управления «логикой» генерации (например, как объекты расставляются в кадре или как меняется освещение).

Прогнозы и перспективы 32:51

По мнению спикеров, в будущем процессы генерации синтетических данных и обучения ML-моделей станут единым непрерывным конвейером. Unity планирует расширять возможности Perception, добавляя AI-готовые базы контента, новые типы сенсоров (помимо RGB-камер) и упрощенный интерфейс для генерации.

Отвечая на вопрос о валидации, Хоганс и Форт отметили, что пока индустрия опирается на статистику, но призывают сообщество разрабатывать новые методы проверки «качества» синтетики до начала тренировки. При этом они подчеркивают, что использование «облегченных» архитектур моделей на малых выборках синтетических данных уже сегодня позволяет эффективно проводить проверку гипотез перед масштабированием.

💬 Цитаты

«Мы знаем, что люди делают всё это вручную, и мы должны решить эту проблему раз и навсегда для всех.»

Джонатан Хоганс 35:07

«Синтетические данные позволяют переводить стоимость сбора и аннотации в стоимость вычислений, что на порядки дешевле.»

Джеймс Форт 10:34
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Доменная рандомизация
Метод обучения, при котором характеристики виртуальной среды (свет, текстуры, позиции) постоянно меняются, чтобы модель стала устойчивой к шуму.
Bounding box
Прямоугольная рамка вокруг объекта на изображении, используемая как целевая разметка в задачах детекции.
Инстанс-сегментация
Задача компьютерного зрения, где нужно выделить каждый отдельный объект на фото, присвоив ему уникальный цвет/класс.
Edge cases
Редкие, нестандартные ситуации, которые практически не встречаются в обычных обучающих данных, но важны для безопасности.
📊 Цифры
🗓 Хронология
  1. 2016 Выход датасета SYNTHIA, подтвердившего ценность синтетических данных для автономного транспорта.
  2. 2017 OpenAI опубликовала результаты обучения роботов исключительно на синтетике.
  3. 2019 Исследования показали эффективность синтетических данных в задачах ритейла.
  4. 2021 Unity анонсировала развитие AI-готовых баз контента и новых инструментов генерации.
⚖️ Другая сторона
Искусственный интеллект Unity Perception SDK Computer Vision Synthetic Data Domain Randomization