Компания Meta под руководством Марка Цукерберга продолжает серию громких релизов в области открытого искусственного интеллекта. Вслед за выходом Llama 3.1 была представлена Segment Anything Model 2 (SAM 2) — первая унифицированная нейросеть для сегментации объектов в видео и на изображениях в реальном времени. По мнению автора канала Уэса Рота, этот шаг подтверждает агрессивный курс компании на создание открытой экосистемы ИИ в противовес закрытым моделям конкурентов, таких как Apple или OpenAI .
🚀 SAM 2: Новый стандарт визуального ИИ 0:41
Основная ценность SAM 2 заключается в способности выделять и отслеживать любые объекты в видеопотоке и на статичных изображениях в реальном времени. Модель распространяется под лицензией Apache 2.0, что позволяет разработчикам свободно использовать её для создания собственных продуктов .
Ключевые технологические особенности новой модели:
- Масштаб данных: Вместе с моделью Meta выпустила набор данных SA-V. Он в 4,5 раза больше и содержит в 50 раз больше аннотаций, чем крупнейшие существующие датасеты для сегментации видео .
- Zero-shot generalization: Модель обладает способностью к «нулевому обучению». Это означает, что ей не нужны примеры конкретных объектов (например, 10 фотографий определенной собаки), чтобы распознать их. Она способна сегментировать объект «из коробки», основываясь на общих визуальных принципах .
- Точность и производительность: SAM 2 превосходит предыдущие решения по точности выделения границ и стабильности отслеживания объектов, которые временно скрываются из вида или быстро движутся .
Уэс Рот отмечает, что до появления SAM 2 подобные задачи требовали узкоспециализированных экспертов и огромных вычислительных мощностей. Теперь же, по его словам, продвинутая сегментация превращается в «детскую игру», доступную каждому .
🔬 От медицины до робототехники: сферы применения 4:00
Первая версия модели SAM уже нашла применение в самых разных областях науки. Новая итерация расширяет эти возможности благодаря работе с динамическим контентом.
Текущие и потенциальные сценарии использования:
- Медицина: Анализ клеточных изображений, обнаружение рака кожи и сегментация сонарных снимков .
- Экология: Изучение коралловых рифов, анализ спутниковых снимков и мониторинг изменений ландшафта .
- Автономные системы: Улучшение компьютерного зрения для беспилотных автомобилей и роботов .
- Креативные индустрии: Создание новых видеоэффектов и инструментов для быстрого редактирования контента .
В ходе демонстрации возможностей Уэс Рот протестировал модель на сложном видео с уличными котами. SAM 2 успешно отследила быстро движущееся животное, несмотря на резкие прыжки и визуальные помехи . Также модель показала отличные результаты в классическом трюке с наперстками: выделив стакан, под которым спрятан шарик, нейросеть не теряла его из вида в процессе перемешивания .
🤝 Диалог титанов: Цукерберг и Хуанг о будущем ИИ 9:40
Важным моментом видео стало обсуждение Марка Цукерберга с генеральным директором NVIDIA Дженсеном Хуангом на конференции SIGGRAPH. Лидеры индустрии обсудили, как модели визуального понимания изменят физический мир.
Дженсен Хуанг подчеркнул, что NVIDIA активно использует подобные технологии в проекте Omniverse для обучения роботов в симуляциях . По его мнению, ИИ-модели понимания видео (Video Language Models) станут критически важными для индустриальной цифровизации . Например, на умном складе ИИ сможет мгновенно распознать упавшую коробку или разлитую воду, сгенерировать текстовое оповещение и вызвать помощь, вместо того чтобы просто записывать терабайты бесполезного видео .
Марк Цукерберг, в свою очередь, продемонстрировал работу SAM 2 на примере стада коров со своего ранчо на Кауаи. Он выразил уверенность, что открытость модели позволит ученым и инженерам по всему миру внедрять её в «серьезные приложения», выходящие далеко за рамки видеоэффектов .
🌍 Философия открытого кода против прибыли 4:27
Уэс Рот обращает внимание на экономический аспект стратегии Meta. Согласно открытому письму Цукерберга, открытый исходный код ИИ обладает потенциалом ускорить человеческую продуктивность и научный прогресс сильнее, чем любая другая современная технология .
Позиция Марка Цукерберга, изложенная в интервью и письме:
- Доступность: Открытые модели позволяют избежать ситуации, когда критически важные технологии (например, для лечения рака) монополизируются одной компанией ради получения миллиардных прибылей .
- Экономический рост: Открытость стимулирует инновации, так как сообщество может строить свои решения поверх фундаментальных моделей Meta .
- Безопасность и прозрачность: Открытый код позволяет аудировать алгоритмы и понимать, на каких данных они обучались .
Хотя критики часто указывают на неоднозначную репутацию Цукерберга, Уэс Рот признает, что масштаб и качество инструментов, которые Meta отдает в общественное достояние, заслуживают уважения и будут иметь реальное влияние на мир .