# Найла Мюррей: «Компьютерное зрение и LLM сливаются в одно»

Источник: https://www.youtube.com/watch?v=4SUPhammyww
Канал: The TWIML AI Podcast
Опубликовано: 02.01.2024

---

## Компьютерное зрение в 2024: от нейронных полей к универсальным моделям 👁️
[[JUMP:0:00]]

2023 год стал поворотным моментом для сферы компьютерного зрения (Computer Vision), где границы между визуальными задачами и языковыми моделями практически стерлись. В очередном выпуске подкаста *The TWIML AI Podcast* ведущий Сэм Шаррингтон обсудил ключевые тренды индустрии с Найлой Мюррей, директором по исследованиям в области искусственного интеллекта в компании Meta. Основной темой беседы стал симбиоз технологий: как достижения в области больших языковых моделей (LLM) ускорили прогресс в распознавании образов, генерации видео и создании «воплощенного» ИИ.

### 🎨 Контролируемая генерация контента
[[JUMP:4:00]]

Прошедший год ознаменовался переходом от случайной генерации изображений из латентных переменных к строго контролируемым процессам. По словам Найлы Мюррей, пользователи теперь ожидают возможности управлять результатом с помощью промптов, масок сегментации или карт глубины.

*   **ControlNet:** Инструмент, позволивший пользователям задавать композицию изображения с помощью структурных элементов (например, спиральных узоров). Мюррей отмечает, что проект стал вирусным благодаря своей модульности: он позволяет добавлять новые типы управления, не переобучая базовую модель (например, Stable Diffusion) целиком.
*   **Versatile Diffusion:** Подход, использующий эмбеддинги CLIP (модели OpenAI) для создания общего семантического пространства. Это позволяет системе работать с разными модальностями: например, декодировать сигналы мозга (MEG/fMRI) в визуальные или аудио-образы.
*   **Пиксельная точность:** Исследователи всё чаще применяют обучение без учителя (training-free) и методы в контексте (in-context learning), чтобы редактировать конкретные элементы видео или создавать сложные композиции с нуля.

### 🤖 Визуальное программирование и «агенты»
[[JUMP:16:09]]

Одним из самых впечатляющих трендов стало использование LLM в качестве «мозгового центра» для управления визуальными инструментами.

*   **VisProg (Visual Programming):** Система, где языковая модель (например, GPT-3) использует набор готовых API для зрения — распознавание объектов, генерацию, поиск. Модель строит цепочку действий, чтобы решить сложную визуальную задачу, которую невозможно выполнить одним шагом.
*   **ViperGPT:** Аналогичный подход, использующий GPT-Codex. В отличие от VisProg, этот метод фокусируется на генерации исполняемого Python-кода, что, по мнению Мюррей, подтверждает гипотезу о том, что обучение на коде улучшает логические рассуждения.
*   **Chain of Thought:** Использование пошагового «рассуждения» позволяет моделям успешно интерпретировать сложные сцены — например, анализировать социальный контекст между владельцами двух разных машин на фото.

### 📐 3D Гауссовское сплэттинг (Gaussian Splatting)
[[JUMP:23:17]]

В области 3D-реконструкции сцены Gaussian Splatting стал серьезным конкурентом популярным нейронным полям (NeRF).

*   **Суть технологии:** Вместо представления 3D-пространства как нейронной сети, сцена моделируется как облако из 1–5 миллионов «гауссианов» (эллипсоидов) с определенной непрозрачностью и положением.
*   **Преимущества:** Этот метод значительно эффективнее NeRF в плане вычислений и позволяет достичь невероятного уровня детализации при синтезе новых ракурсов (novel view synthesis). Мюррей прогнозирует, что в 2024 году технология активно распространится на динамические сцены и видео.

### 🌐 Фундаментальные модели и будущее 2024 года
[[JUMP:36:09]]

Дискуссия коснулась инструментов, которые задали стандарты в индустрии, включая *Segment Anything* от Meta (универсальный сегментатор, работающий по клику, тексту или рамке) и *DINOv2* (визуальный бэкенд, обученный с помощью самообучения без учителя).

**Прогнозы на 2024 год по мнению Найлы Мюррей:**

1.  **Видео и звук:** Переход от генерации картинок к созданию синхронизированных видеопотоков с качественным аудиорядом.
2.  **Воплощенный ИИ (Embodied AI):** Интеграция мультимодальных моделей в роботов и AR-очки. Мюррей верит, что способность робота воспринимать визуальную среду, понимать голосовые инструкции и действовать в них — это главная цель ближайших лет.
3.  **Баланс знаний и творчества:** Исследователи будут искать способы управления «памятью» моделей — как вставлять или удалять факты, не теряя при этом способности ИИ к креативности.

В завершение Найла Мюррей отметила, что несмотря на конкуренцию, исследовательское сообщество сохраняет приверженность открытой науке, что позволяет прогрессу «снежным комом» ускоряться с каждым месяцем.