# Битва видеомоделей: как Google и Meta оживляют текст

Источник: https://www.youtube.com/watch?v=TOo-HnjjuhU
Канал: Yannic Kilcher
Опубликовано: 13.11.2022

---

Янник Килчер в новом выпуске ML News представляет масштабный обзор индустрии искусственного интеллекта: от появления «многопользовательской» Stable Diffusion и гонки видеомоделей до финансовых амбиций OpenAI. Выпуск был записан на конференции Machine Learning in Poland (ML in PL), которую ведущий охарактеризовал как мероприятие высочайшего уровня, не уступающее крупнейшим мировым симпозиумам.

## 🎨 Коллективное творчество и научные стандарты Hugging Face
[[JUMP:01:21]]

Hugging Face запустил проект «Multiplayer Stable Diffusion» — это бесконечный цифровой холст, на котором пользователи могут совместно генерировать изображения [01:21]. Участники могут выбирать область на канвасе и вводить текстовое описание, которое модель вписывает в общую композицию. Килчер отмечает, что такие инструменты демонстрируют неожиданные способы использования открытых моделей, которые невозможно было предсказать на этапе разработки [01:50].

Кроме развлекательного контента, Hugging Face внедряет важные стандарты для научного сообщества:

*   **Цифровые идентификаторы (DOI):** Теперь моделям и датасетам на платформе присваиваются уникальные идентификаторы DOI [02:03].
*   **Воспроизводимость:** Это позволяет исследователям ссылаться на конкретные версии артефактов в своих работах.
*   **Экосистема:** Интеграция с общим научным ландшафтом делает использование моделей из Hub более легитимным для академической среды [02:54].

## 💰 Финансовые аппетиты OpenAI и партнерство с Microsoft
[[JUMP:03:00]]

Издание Wall Street Journal сообщило, что Microsoft ведет переговоры об увеличении инвестиций в OpenAI [03:00]. Ранее технологический гигант уже вложил около 1 миллиарда долларов, получив приоритетный доступ к технологиям OpenAI для своих продуктов (например, интеграция DALL-E 2 в Microsoft Designer и поиск Bing) [03:27].

Килчер предлагает два варианта интерпретации этих событий:

1.  **Масштабирование:** Стартапы часто привлекают новые раунды финансирования для агрессивного роста и расширения инфраструктуры [04:00].
2.  **Дефицит средств:** Возможно, компания просто нуждается в деньгах для поддержания текущей операционной деятельности.

По мнению ведущего, планы Microsoft по использованию ИИ в дизайнере и поиске Bing выглядят недостаточно амбициозными для таких объемов инвестиций [03:41].

## 📚 Открытые данные и этика: проект The Stack
[[JUMP:04:18]]

Проект Big Code представил «The Stack» — датасет объемом 3 терабайта, содержащий исходный код под разрешительными лицензиями (MIT, Apache, BSD) [04:18]. Этот набор данных предназначен для обучения моделей генерации кода, подобных Codex.

Особое внимание уделено юридическим аспектам и желаниям разработчиков:

*   **Механизм удаления (Opt-out):** Авторы кода могут подать запрос на удаление своих данных из коллекции [05:25].
*   **Обязательства пользователей:** Скачивая датасет, исследователь соглашается всегда использовать самую актуальную версию, чтобы изменения (удаления кода по просьбе авторов) вступали в силу [05:37].
*   **Юридическая ответственность:** Килчер предупреждает, что нажатие кнопки согласия с условиями использования на Hugging Face накладывает на пользователя реальные юридические обязательства [05:51].

## 🎥 Революция Text-to-Video: Google против Meta
[[JUMP:07:08]]

Сразу несколько технологических гигантов представили свои решения в области генерации видео по тексту. Каждая компания выбрала свой уникальный технологический путь.

### Подход Google: Imagen Video и Phenaki
[[JUMP:07:08]]

Google Research представила **Imagen Video**, использующую архитектуру Video U-Net [07:12]. Модель сочетает диффузионные процессы с сетями супер-разрешения для обеспечения временной стабильности и высокой четкости кадров [07:37].

Другая разработка Google — **Phenaki** — фокусируется на создании длинных видеороликов (до нескольких минут) [08:04]. В отличие от диффузионных моделей, Phenaki сжимает видео в токенизированное представление и использует авторегрессионную языковую модель для его продолжения. Это позволяет генерировать связные истории, где содержание видео меняется вслед за динамическим текстовым описанием [08:18].

### Подход Meta: Make-A-Video
[[JUMP:09:03]]

Meta AI (признана экстремистской организацией в РФ) представила **Make-A-Video** [09:03]. Особенность модели в том, что она обучается на парах «текст-изображение», а динамику движений осваивает на неразмеченных видеоданных без текстового описания [09:25]. Фактически модель учится тому, как «ведет себя мир» в движении, и применяет эти знания к статичным картинкам, сгенерированным по тексту [09:37].

## 🧊 3D-генерация и новые архитектуры
[[JUMP:10:03]]

Проект **Dream Fusion** переносит успехи генеративного ИИ в трехмерное пространство [10:03]. Вместо использования дефицитных 3D-датасетов, разработчики оптимизируют 3D-сцену (представленную как Neural Radiance Field или NeRF) таким образом, чтобы рендеры этой сцены с любого ракурса максимально соответствовали текстовому описанию в понимании обычной модели Text-to-Image [10:43].

В области «чистой» генерации изображений Baidu представила **Ernie VilG 2.0**, использующую метод «смеси экспертов по шумоподавлению» (Mixture of Denoising Experts) [11:10]. По оценке Килчера, результаты модели выглядят впечатляюще, однако сам код и веса на данный момент не опубликованы в открытом доступе [11:23].

## 🛠️ Инструменты, библиотеки и «железо»
[[JUMP:13:00]]

Для инженеров и исследователей вышло множество обновлений, упрощающих работу с моделями:

*   **AITemplate (Meta):** Механизм инференса, который оптимизирует граф вычислений и компилирует его в высокопроизводительный C++ код для GPU от NVIDIA и AMD [17:26].
*   **Grand Teton (Meta):** Новая открытая архитектура аппаратной платформы для глубокого обучения, призванная стать преемником систем типа DGX [13:13].
*   **NeRF Studio:** Полноценная среда для создания, обучения и визуализации нейронных полей сияния (NeRF) [18:07].
*   **Albumentations 1.3:** Популярная библиотека аугментации изображений получила новые методы трансформации данных [16:19].

### Специализированные решения:

*   **Медицина:** Исследователи обучили диффузионную модель на снимках МРТ головного мозга, создав датасет из 100 000 синтетических, но реалистичных изображений для обучения врачей и моделей [16:46].
*   **Код:** Модель **CodeGeeX** предлагает многоязычную генерацию кода и, в отличие от многих аналогов, доступна для скачивания и локального запуска [17:14].
*   **Речевые технологии:** Сообщество нашло способы ускорить модель **OpenAI Whisper** более чем в 3 раза для работы на обычных процессорах [20:03].

## 🎙️ Проекты сообщества: транскрипты Лекса Фридмана
[[JUMP:22:09]]

Андрей Карпатый (известный исследователь ИИ и экс-директор по ИИ в Tesla) реализовал проект по автоматической транскрибации всех выпусков подкаста Лекса Фридмана [22:09]. Используя скрипты для скачивания с YouTube и модель Whisper от OpenAI, он создал базу данных с поиском по тексту и временными метками. По словам Килчера, это отличный пример того, как открытые технологии позволяют создавать полезные продукты буквально за несколько дней [22:23].