Найла Мюррей: «Компьютерное зрение и LLM сливаются в одно»

The TWIML AI Podcast 1,5 тыс. 59 мин 3 мин 02.01.2024
Главное

Компьютерное зрение в 2024: от нейронных полей к универсальным моделям 👁️ 0:00

2023 год стал поворотным моментом для сферы компьютерного зрения (Computer Vision), где границы между визуальными задачами и языковыми моделями практически стерлись. В очередном выпуске подкаста The TWIML AI Podcast ведущий Сэм Шаррингтон обсудил ключевые тренды индустрии с Найлой Мюррей, директором по исследованиям в области искусственного интеллекта в компании Meta. Основной темой беседы стал симбиоз технологий: как достижения в области больших языковых моделей (LLM) ускорили прогресс в распознавании образов, генерации видео и создании «воплощенного» ИИ.

🎨 Контролируемая генерация контента 4:00

Прошедший год ознаменовался переходом от случайной генерации изображений из латентных переменных к строго контролируемым процессам. По словам Найлы Мюррей, пользователи теперь ожидают возможности управлять результатом с помощью промптов, масок сегментации или карт глубины.

🤖 Визуальное программирование и «агенты» 16:09

Одним из самых впечатляющих трендов стало использование LLM в качестве «мозгового центра» для управления визуальными инструментами.

📐 3D Гауссовское сплэттинг (Gaussian Splatting) 23:17

В области 3D-реконструкции сцены Gaussian Splatting стал серьезным конкурентом популярным нейронным полям (NeRF).

🌐 Фундаментальные модели и будущее 2024 года 36:09

Дискуссия коснулась инструментов, которые задали стандарты в индустрии, включая Segment Anything от Meta (универсальный сегментатор, работающий по клику, тексту или рамке) и DINOv2 (визуальный бэкенд, обученный с помощью самообучения без учителя).

Прогнозы на 2024 год по мнению Найлы Мюррей:

  1. Видео и звук: Переход от генерации картинок к созданию синхронизированных видеопотоков с качественным аудиорядом.
  2. Воплощенный ИИ (Embodied AI): Интеграция мультимодальных моделей в роботов и AR-очки. Мюррей верит, что способность робота воспринимать визуальную среду, понимать голосовые инструкции и действовать в них — это главная цель ближайших лет.
  3. Баланс знаний и творчества: Исследователи будут искать способы управления «памятью» моделей — как вставлять или удалять факты, не теряя при этом способности ИИ к креативности.

В завершение Найла Мюррей отметила, что несмотря на конкуренцию, исследовательское сообщество сохраняет приверженность открытой науке, что позволяет прогрессу «снежным комом» ускоряться с каждым месяцем.

💬 Цитаты

«Это безумие: вы берете сигналы мозга, используете CLIP, и получаете общую семантическую карту.»

Найла Мюррей 07:55

«Я не стала бы ставить деньги на демонтаж Голливуда в ближайшие три года, но короткометражки будут очень убедительными.»

Найла Мюррей 54:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Gaussian Splatting
Метод 3D-реконструкции, использующий миллионы эллипсоидов для воссоздания сцены с высокой детализацией.
Segment Anything
Фундаментальная модель Meta, способная выделять любой объект на изображении по клику или промпту.
Zero-shot
Способность модели выполнять задачу без предварительного дообучения на конкретных примерах.
NeRF
Neural Radiance Fields; технология нейронного рендеринга 3D-сцен из набора 2D-фотографий.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Computer Vision Gaussian Splatting Naila Murray Meta AI