Найла Мюррей: «Компьютерное зрение и LLM сливаются в одно»

Компьютерное зрение в 2024: от нейронных полей к универсальным моделям 👁️ 0:00

2023 год стал поворотным моментом для сферы компьютерного зрения (Computer Vision), где границы между визуальными задачами и языковыми моделями практически стерлись. В очередном выпуске подкаста The TWIML AI Podcast ведущий Сэм Шаррингтон обсудил ключевые тренды индустрии с Найлой Мюррей, директором по исследованиям в области искусственного интеллекта в компании Meta. Основной темой беседы стал симбиоз технологий: как достижения в области больших языковых моделей (LLM) ускорили прогресс в распознавании образов, генерации видео и создании «воплощенного» ИИ.

🎨 Контролируемая генерация контента 4:00

Прошедший год ознаменовался переходом от случайной генерации изображений из латентных переменных к строго контролируемым процессам. По словам Найлы Мюррей, пользователи теперь ожидают возможности управлять результатом с помощью промптов, масок сегментации или карт глубины.

ControlNet: Инструмент, позволивший пользователям задавать композицию изображения с помощью структурных элементов (например, спиральных узоров). Мюррей отмечает, что проект стал вирусным благодаря своей модульности: он позволяет добавлять новые типы управления, не переобучая базовую модель (например, Stable Diffusion) целиком.
Versatile Diffusion: Подход, использующий эмбеддинги CLIP (модели OpenAI) для создания общего семантического пространства. Это позволяет системе работать с разными модальностями: например, декодировать сигналы мозга (MEG/fMRI) в визуальные или аудио-образы.
Пиксельная точность: Исследователи всё чаще применяют обучение без учителя (training-free) и методы в контексте (in-context learning), чтобы редактировать конкретные элементы видео или создавать сложные композиции с нуля.

🤖 Визуальное программирование и «агенты» 16:09

Одним из самых впечатляющих трендов стало использование LLM в качестве «мозгового центра» для управления визуальными инструментами.

VisProg (Visual Programming): Система, где языковая модель (например, GPT-3) использует набор готовых API для зрения — распознавание объектов, генерацию, поиск. Модель строит цепочку действий, чтобы решить сложную визуальную задачу, которую невозможно выполнить одним шагом.
ViperGPT: Аналогичный подход, использующий GPT-Codex. В отличие от VisProg, этот метод фокусируется на генерации исполняемого Python-кода, что, по мнению Мюррей, подтверждает гипотезу о том, что обучение на коде улучшает логические рассуждения.
Chain of Thought: Использование пошагового «рассуждения» позволяет моделям успешно интерпретировать сложные сцены — например, анализировать социальный контекст между владельцами двух разных машин на фото.

📐 3D Гауссовское сплэттинг (Gaussian Splatting) 23:17

В области 3D-реконструкции сцены Gaussian Splatting стал серьезным конкурентом популярным нейронным полям (NeRF).

Суть технологии: Вместо представления 3D-пространства как нейронной сети, сцена моделируется как облако из 1–5 миллионов «гауссианов» (эллипсоидов) с определенной непрозрачностью и положением.
Преимущества: Этот метод значительно эффективнее NeRF в плане вычислений и позволяет достичь невероятного уровня детализации при синтезе новых ракурсов (novel view synthesis). Мюррей прогнозирует, что в 2024 году технология активно распространится на динамические сцены и видео.

🌐 Фундаментальные модели и будущее 2024 года 36:09

Дискуссия коснулась инструментов, которые задали стандарты в индустрии, включая Segment Anything от Meta (универсальный сегментатор, работающий по клику, тексту или рамке) и DINOv2 (визуальный бэкенд, обученный с помощью самообучения без учителя).

Прогнозы на 2024 год по мнению Найлы Мюррей:

Видео и звук: Переход от генерации картинок к созданию синхронизированных видеопотоков с качественным аудиорядом.
Воплощенный ИИ (Embodied AI): Интеграция мультимодальных моделей в роботов и AR-очки. Мюррей верит, что способность робота воспринимать визуальную среду, понимать голосовые инструкции и действовать в них — это главная цель ближайших лет.
Баланс знаний и творчества: Исследователи будут искать способы управления «памятью» моделей — как вставлять или удалять факты, не теряя при этом способности ИИ к креативности.

В завершение Найла Мюррей отметила, что несмотря на конкуренцию, исследовательское сообщество сохраняет приверженность открытой науке, что позволяет прогрессу «снежным комом» ускоряться с каждым месяцем.