Битва видеомоделей: как Google и Meta оживляют текст

Yannic Kilcher 22,8 тыс. 22 мин 4 мин 13.11.2022
Главное

Янник Килчер в новом выпуске ML News представляет масштабный обзор индустрии искусственного интеллекта: от появления «многопользовательской» Stable Diffusion и гонки видеомоделей до финансовых амбиций OpenAI. Выпуск был записан на конференции Machine Learning in Poland (ML in PL), которую ведущий охарактеризовал как мероприятие высочайшего уровня, не уступающее крупнейшим мировым симпозиумам.

🎨 Коллективное творчество и научные стандарты Hugging Face 1:21

Hugging Face запустил проект «Multiplayer Stable Diffusion» — это бесконечный цифровой холст, на котором пользователи могут совместно генерировать изображения . Участники могут выбирать область на канвасе и вводить текстовое описание, которое модель вписывает в общую композицию. Килчер отмечает, что такие инструменты демонстрируют неожиданные способы использования открытых моделей, которые невозможно было предсказать на этапе разработки .

Кроме развлекательного контента, Hugging Face внедряет важные стандарты для научного сообщества:

💰 Финансовые аппетиты OpenAI и партнерство с Microsoft 3:00

Издание Wall Street Journal сообщило, что Microsoft ведет переговоры об увеличении инвестиций в OpenAI . Ранее технологический гигант уже вложил около 1 миллиарда долларов, получив приоритетный доступ к технологиям OpenAI для своих продуктов (например, интеграция DALL-E 2 в Microsoft Designer и поиск Bing) .

Килчер предлагает два варианта интерпретации этих событий:

  1. Масштабирование: Стартапы часто привлекают новые раунды финансирования для агрессивного роста и расширения инфраструктуры .
  2. Дефицит средств: Возможно, компания просто нуждается в деньгах для поддержания текущей операционной деятельности.

По мнению ведущего, планы Microsoft по использованию ИИ в дизайнере и поиске Bing выглядят недостаточно амбициозными для таких объемов инвестиций .

📚 Открытые данные и этика: проект The Stack 4:18

Проект Big Code представил «The Stack» — датасет объемом 3 терабайта, содержащий исходный код под разрешительными лицензиями (MIT, Apache, BSD) . Этот набор данных предназначен для обучения моделей генерации кода, подобных Codex.

Особое внимание уделено юридическим аспектам и желаниям разработчиков:

🎥 Революция Text-to-Video: Google против Meta 7:08

Сразу несколько технологических гигантов представили свои решения в области генерации видео по тексту. Каждая компания выбрала свой уникальный технологический путь.

Подход Google: Imagen Video и Phenaki 7:08

Google Research представила Imagen Video, использующую архитектуру Video U-Net . Модель сочетает диффузионные процессы с сетями супер-разрешения для обеспечения временной стабильности и высокой четкости кадров .

Другая разработка GooglePhenaki — фокусируется на создании длинных видеороликов (до нескольких минут) . В отличие от диффузионных моделей, Phenaki сжимает видео в токенизированное представление и использует авторегрессионную языковую модель для его продолжения. Это позволяет генерировать связные истории, где содержание видео меняется вслед за динамическим текстовым описанием .

Подход Meta: Make-A-Video 9:03

Meta AI (признана экстремистской организацией в РФ) представила Make-A-Video . Особенность модели в том, что она обучается на парах «текст-изображение», а динамику движений осваивает на неразмеченных видеоданных без текстового описания . Фактически модель учится тому, как «ведет себя мир» в движении, и применяет эти знания к статичным картинкам, сгенерированным по тексту .

🧊 3D-генерация и новые архитектуры 10:03

Проект Dream Fusion переносит успехи генеративного ИИ в трехмерное пространство . Вместо использования дефицитных 3D-датасетов, разработчики оптимизируют 3D-сцену (представленную как Neural Radiance Field или NeRF) таким образом, чтобы рендеры этой сцены с любого ракурса максимально соответствовали текстовому описанию в понимании обычной модели Text-to-Image .

В области «чистой» генерации изображений Baidu представила Ernie VilG 2.0, использующую метод «смеси экспертов по шумоподавлению» (Mixture of Denoising Experts) . По оценке Килчера, результаты модели выглядят впечатляюще, однако сам код и веса на данный момент не опубликованы в открытом доступе .

🛠️ Инструменты, библиотеки и «железо» 13:00

Для инженеров и исследователей вышло множество обновлений, упрощающих работу с моделями:

Специализированные решения:

🎙️ Проекты сообщества: транскрипты Лекса Фридмана 22:09

Андрей Карпатый (известный исследователь ИИ и экс-директор по ИИ в Tesla) реализовал проект по автоматической транскрибации всех выпусков подкаста Лекса Фридмана . Используя скрипты для скачивания с YouTube и модель Whisper от OpenAI, он создал базу данных с поиском по тексту и временными метками. По словам Килчера, это отличный пример того, как открытые технологии позволяют создавать полезные продукты буквально за несколько дней .

💬 Цитаты

«Интересно, неужели их план — потратить миллиард долларов, чтобы наконец-то сдвинуть Bing с мертвой точки?»

Янник Килчер 03:41

«Стартапы часто берут больше денег, когда хотят начать масштабироваться еще сильнее.»

Янник Килчер 04:00
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
DOI
Цифровой идентификатор объекта, используемый для однозначной ссылки на научные материалы.
NeRF
Метод представления 3D-сцены через нейронную сеть, предсказывающую цвет и плотность в каждой точке пространства.
Hyperparameter optimization
Процесс поиска лучших настроек алгоритма для достижения максимальной точности модели.
📊 Цифры
🗓 Хронология
  1. Октябрь 2022 Запись выпуска на конференции ML in PL в Польше
  2. Октябрь 2022 Публикация статьи WSJ о переговорах Microsoft и OpenAI
⚖️ Другая сторона
Искусственный интеллект Stable Diffusion OpenAI Hugging Face Google Imagen Meta Make-A-Video