Meta представила SAM 2: новая нейросеть сегментирует видео в реальном времени

Wes Roth 57,4 тыс. 12 мин 3 мин 30.07.2024
Главное

Компания Meta под руководством Марка Цукерберга продолжает серию громких релизов в области открытого искусственного интеллекта. Вслед за выходом Llama 3.1 была представлена Segment Anything Model 2 (SAM 2) — первая унифицированная нейросеть для сегментации объектов в видео и на изображениях в реальном времени. По мнению автора канала Уэса Рота, этот шаг подтверждает агрессивный курс компании на создание открытой экосистемы ИИ в противовес закрытым моделям конкурентов, таких как Apple или OpenAI .

🚀 SAM 2: Новый стандарт визуального ИИ 0:41

Основная ценность SAM 2 заключается в способности выделять и отслеживать любые объекты в видеопотоке и на статичных изображениях в реальном времени. Модель распространяется под лицензией Apache 2.0, что позволяет разработчикам свободно использовать её для создания собственных продуктов .

Ключевые технологические особенности новой модели:

Уэс Рот отмечает, что до появления SAM 2 подобные задачи требовали узкоспециализированных экспертов и огромных вычислительных мощностей. Теперь же, по его словам, продвинутая сегментация превращается в «детскую игру», доступную каждому .

🔬 От медицины до робототехники: сферы применения 4:00

Первая версия модели SAM уже нашла применение в самых разных областях науки. Новая итерация расширяет эти возможности благодаря работе с динамическим контентом.

Текущие и потенциальные сценарии использования:

В ходе демонстрации возможностей Уэс Рот протестировал модель на сложном видео с уличными котами. SAM 2 успешно отследила быстро движущееся животное, несмотря на резкие прыжки и визуальные помехи . Также модель показала отличные результаты в классическом трюке с наперстками: выделив стакан, под которым спрятан шарик, нейросеть не теряла его из вида в процессе перемешивания .

🤝 Диалог титанов: Цукерберг и Хуанг о будущем ИИ 9:40

Важным моментом видео стало обсуждение Марка Цукерберга с генеральным директором NVIDIA Дженсеном Хуангом на конференции SIGGRAPH. Лидеры индустрии обсудили, как модели визуального понимания изменят физический мир.

Дженсен Хуанг подчеркнул, что NVIDIA активно использует подобные технологии в проекте Omniverse для обучения роботов в симуляциях . По его мнению, ИИ-модели понимания видео (Video Language Models) станут критически важными для индустриальной цифровизации . Например, на умном складе ИИ сможет мгновенно распознать упавшую коробку или разлитую воду, сгенерировать текстовое оповещение и вызвать помощь, вместо того чтобы просто записывать терабайты бесполезного видео .

Марк Цукерберг, в свою очередь, продемонстрировал работу SAM 2 на примере стада коров со своего ранчо на Кауаи. Он выразил уверенность, что открытость модели позволит ученым и инженерам по всему миру внедрять её в «серьезные приложения», выходящие далеко за рамки видеоэффектов .

🌍 Философия открытого кода против прибыли 4:27

Уэс Рот обращает внимание на экономический аспект стратегии Meta. Согласно открытому письму Цукерберга, открытый исходный код ИИ обладает потенциалом ускорить человеческую продуктивность и научный прогресс сильнее, чем любая другая современная технология .

Позиция Марка Цукерберга, изложенная в интервью и письме:

  1. Доступность: Открытые модели позволяют избежать ситуации, когда критически важные технологии (например, для лечения рака) монополизируются одной компанией ради получения миллиардных прибылей .
  2. Экономический рост: Открытость стимулирует инновации, так как сообщество может строить свои решения поверх фундаментальных моделей Meta .
  3. Безопасность и прозрачность: Открытый код позволяет аудировать алгоритмы и понимать, на каких данных они обучались .

Хотя критики часто указывают на неоднозначную репутацию Цукерберга, Уэс Рот признает, что масштаб и качество инструментов, которые Meta отдает в общественное достояние, заслуживают уважения и будут иметь реальное влияние на мир .

💬 Цитаты

«Открытый исходный код ИИ имеет больший потенциал, чем любая другая современная технология, для повышения человеческой продуктивности и качества жизни.»

Марк Цукерберг 04:27

«Вместо того чтобы записывать каждую наносекунду видео, ИИ фиксирует только важное, потому что понимает, на что смотрит.»

Дженсен Хуанг 12:15
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Сегментация
Процесс разделения изображения на части или выделения конкретных объектов по их контурам.
Zero-shot generalization
Способность модели ИИ правильно обрабатывать данные, которые она не видела в процессе обучения.
Apache 2.0
Пермиссивная лицензия на свободное ПО, позволяющая коммерческое использование и модификацию.
Omniverse
Платформа NVIDIA для проектирования и моделирования физических миров в реальном времени.
📊 Цифры
🗓 Хронология
  1. Июль 2024 Релиз модели Llama 3.1 от Meta
  2. Июль 2024 Официальный выход SAM 2 и презентация на SIGGRAPH
⚖️ Другая сторона
Искусственный интеллект Meta SAM 2 Mark Zuckerberg Nvidia Jensen Huang