# Meta представила SAM 2: новая нейросеть сегментирует видео в реальном времени

Источник: https://www.youtube.com/watch?v=5NUJWMqvz64
Канал: Wes Roth
Опубликовано: 30.07.2024

---

Компания Meta под руководством Марка Цукерберга продолжает серию громких релизов в области открытого искусственного интеллекта. Вслед за выходом Llama 3.1 была представлена Segment Anything Model 2 (SAM 2) — первая унифицированная нейросеть для сегментации объектов в видео и на изображениях в реальном времени. По мнению автора канала Уэса Рота, этот шаг подтверждает агрессивный курс компании на создание открытой экосистемы ИИ в противовес закрытым моделям конкурентов, таких как Apple или OpenAI [00:14].

## 🚀 SAM 2: Новый стандарт визуального ИИ
[[JUMP:00:41]]

Основная ценность SAM 2 заключается в способности выделять и отслеживать любые объекты в видеопотоке и на статичных изображениях в реальном времени. Модель распространяется под лицензией Apache 2.0, что позволяет разработчикам свободно использовать её для создания собственных продуктов [00:41]. 

Ключевые технологические особенности новой модели:

*   **Масштаб данных:** Вместе с моделью Meta выпустила набор данных SA-V. Он в 4,5 раза больше и содержит в 50 раз больше аннотаций, чем крупнейшие существующие датасеты для сегментации видео [00:54].
*   **Zero-shot generalization:** Модель обладает способностью к «нулевому обучению». Это означает, что ей не нужны примеры конкретных объектов (например, 10 фотографий определенной собаки), чтобы распознать их. Она способна сегментировать объект «из коробки», основываясь на общих визуальных принципах [03:22].
*   **Точность и производительность:** SAM 2 превосходит предыдущие решения по точности выделения границ и стабильности отслеживания объектов, которые временно скрываются из вида или быстро движутся [02:54].

Уэс Рот отмечает, что до появления SAM 2 подобные задачи требовали узкоспециализированных экспертов и огромных вычислительных мощностей. Теперь же, по его словам, продвинутая сегментация превращается в «детскую игру», доступную каждому [03:47].

## 🔬 От медицины до робототехники: сферы применения
[[JUMP:04:00]]

Первая версия модели SAM уже нашла применение в самых разных областях науки. Новая итерация расширяет эти возможности благодаря работе с динамическим контентом. 

Текущие и потенциальные сценарии использования:

*   **Медицина:** Анализ клеточных изображений, обнаружение рака кожи и сегментация сонарных снимков [04:00].
*   **Экология:** Изучение коралловых рифов, анализ спутниковых снимков и мониторинг изменений ландшафта [04:13].
*   **Автономные системы:** Улучшение компьютерного зрения для беспилотных автомобилей и роботов [02:25].
*   **Креативные индустрии:** Создание новых видеоэффектов и инструментов для быстрого редактирования контента [02:12].

В ходе демонстрации возможностей Уэс Рот протестировал модель на сложном видео с уличными котами. SAM 2 успешно отследила быстро движущееся животное, несмотря на резкие прыжки и визуальные помехи [08:23]. Также модель показала отличные результаты в классическом трюке с наперстками: выделив стакан, под которым спрятан шарик, нейросеть не теряла его из вида в процессе перемешивания [07:56].

## 🤝 Диалог титанов: Цукерберг и Хуанг о будущем ИИ
[[JUMP:09:40]]

Важным моментом видео стало обсуждение Марка Цукерберга с генеральным директором NVIDIA Дженсеном Хуангом на конференции SIGGRAPH. Лидеры индустрии обсудили, как модели визуального понимания изменят физический мир.

Дженсен Хуанг подчеркнул, что NVIDIA активно использует подобные технологии в проекте Omniverse для обучения роботов в симуляциях [01:46]. По его мнению, ИИ-модели понимания видео (Video Language Models) станут критически важными для индустриальной цифровизации [10:06]. Например, на умном складе ИИ сможет мгновенно распознать упавшую коробку или разлитую воду, сгенерировать текстовое оповещение и вызвать помощь, вместо того чтобы просто записывать терабайты бесполезного видео [11:49].

Марк Цукерберг, в свою очередь, продемонстрировал работу SAM 2 на примере стада коров со своего ранчо на Кауаи. Он выразил уверенность, что открытость модели позволит ученым и инженерам по всему миру внедрять её в «серьезные приложения», выходящие далеко за рамки видеоэффектов [11:23].

## 🌍 Философия открытого кода против прибыли
[[JUMP:04:27]]

Уэс Рот обращает внимание на экономический аспект стратегии Meta. Согласно открытому письму Цукерберга, открытый исходный код ИИ обладает потенциалом ускорить человеческую продуктивность и научный прогресс сильнее, чем любая другая современная технология [04:27].

Позиция Марка Цукерберга, изложенная в интервью и письме:

1.  **Доступность:** Открытые модели позволяют избежать ситуации, когда критически важные технологии (например, для лечения рака) монополизируются одной компанией ради получения миллиардных прибылей [04:52].
2.  **Экономический рост:** Открытость стимулирует инновации, так как сообщество может строить свои решения поверх фундаментальных моделей Meta [05:05].
3.  **Безопасность и прозрачность:** Открытый код позволяет аудировать алгоритмы и понимать, на каких данных они обучались [01:20].

Хотя критики часто указывают на неоднозначную репутацию Цукерберга, Уэс Рот признает, что масштаб и качество инструментов, которые Meta отдает в общественное достояние, заслуживают уважения и будут иметь реальное влияние на мир [05:32].