Битва видеомоделей: как Google и Meta оживляют текст

Янник Килчер в новом выпуске ML News представляет масштабный обзор индустрии искусственного интеллекта: от появления «многопользовательской» Stable Diffusion и гонки видеомоделей до финансовых амбиций OpenAI. Выпуск был записан на конференции Machine Learning in Poland (ML in PL), которую ведущий охарактеризовал как мероприятие высочайшего уровня, не уступающее крупнейшим мировым симпозиумам.

🎨 Коллективное творчество и научные стандарты Hugging Face 1:21

Hugging Face запустил проект «Multiplayer Stable Diffusion» — это бесконечный цифровой холст, на котором пользователи могут совместно генерировать изображения . Участники могут выбирать область на канвасе и вводить текстовое описание, которое модель вписывает в общую композицию. Килчер отмечает, что такие инструменты демонстрируют неожиданные способы использования открытых моделей, которые невозможно было предсказать на этапе разработки .

Кроме развлекательного контента, Hugging Face внедряет важные стандарты для научного сообщества:

Цифровые идентификаторы (DOI): Теперь моделям и датасетам на платформе присваиваются уникальные идентификаторы DOI .
Воспроизводимость: Это позволяет исследователям ссылаться на конкретные версии артефактов в своих работах.
Экосистема: Интеграция с общим научным ландшафтом делает использование моделей из Hub более легитимным для академической среды .

💰 Финансовые аппетиты OpenAI и партнерство с Microsoft 3:00

Издание Wall Street Journal сообщило, что Microsoft ведет переговоры об увеличении инвестиций в OpenAI . Ранее технологический гигант уже вложил около 1 миллиарда долларов, получив приоритетный доступ к технологиям OpenAI для своих продуктов (например, интеграция DALL-E 2 в Microsoft Designer и поиск Bing) .

Килчер предлагает два варианта интерпретации этих событий:

Масштабирование: Стартапы часто привлекают новые раунды финансирования для агрессивного роста и расширения инфраструктуры .
Дефицит средств: Возможно, компания просто нуждается в деньгах для поддержания текущей операционной деятельности.

По мнению ведущего, планы Microsoft по использованию ИИ в дизайнере и поиске Bing выглядят недостаточно амбициозными для таких объемов инвестиций .

📚 Открытые данные и этика: проект The Stack 4:18

Проект Big Code представил «The Stack» — датасет объемом 3 терабайта, содержащий исходный код под разрешительными лицензиями (MIT, Apache, BSD) . Этот набор данных предназначен для обучения моделей генерации кода, подобных Codex.

Особое внимание уделено юридическим аспектам и желаниям разработчиков:

Механизм удаления (Opt-out): Авторы кода могут подать запрос на удаление своих данных из коллекции .
Обязательства пользователей: Скачивая датасет, исследователь соглашается всегда использовать самую актуальную версию, чтобы изменения (удаления кода по просьбе авторов) вступали в силу .
Юридическая ответственность: Килчер предупреждает, что нажатие кнопки согласия с условиями использования на Hugging Face накладывает на пользователя реальные юридические обязательства .

🎥 Революция Text-to-Video: Google против Meta 7:08

Сразу несколько технологических гигантов представили свои решения в области генерации видео по тексту. Каждая компания выбрала свой уникальный технологический путь.

Подход Google: Imagen Video и Phenaki 7:08

Google Research представила Imagen Video, использующую архитектуру Video U-Net . Модель сочетает диффузионные процессы с сетями супер-разрешения для обеспечения временной стабильности и высокой четкости кадров .

Другая разработка Google — Phenaki — фокусируется на создании длинных видеороликов (до нескольких минут) . В отличие от диффузионных моделей, Phenaki сжимает видео в токенизированное представление и использует авторегрессионную языковую модель для его продолжения. Это позволяет генерировать связные истории, где содержание видео меняется вслед за динамическим текстовым описанием .

Подход Meta: Make-A-Video 9:03

Meta AI (признана экстремистской организацией в РФ) представила Make-A-Video . Особенность модели в том, что она обучается на парах «текст-изображение», а динамику движений осваивает на неразмеченных видеоданных без текстового описания . Фактически модель учится тому, как «ведет себя мир» в движении, и применяет эти знания к статичным картинкам, сгенерированным по тексту .

🧊 3D-генерация и новые архитектуры 10:03

Проект Dream Fusion переносит успехи генеративного ИИ в трехмерное пространство . Вместо использования дефицитных 3D-датасетов, разработчики оптимизируют 3D-сцену (представленную как Neural Radiance Field или NeRF) таким образом, чтобы рендеры этой сцены с любого ракурса максимально соответствовали текстовому описанию в понимании обычной модели Text-to-Image .

В области «чистой» генерации изображений Baidu представила Ernie VilG 2.0, использующую метод «смеси экспертов по шумоподавлению» (Mixture of Denoising Experts) . По оценке Килчера, результаты модели выглядят впечатляюще, однако сам код и веса на данный момент не опубликованы в открытом доступе .

🛠️ Инструменты, библиотеки и «железо» 13:00

Для инженеров и исследователей вышло множество обновлений, упрощающих работу с моделями:

AITemplate (Meta): Механизм инференса, который оптимизирует граф вычислений и компилирует его в высокопроизводительный C++ код для GPU от NVIDIA и AMD .
Grand Teton (Meta): Новая открытая архитектура аппаратной платформы для глубокого обучения, призванная стать преемником систем типа DGX .
NeRF Studio: Полноценная среда для создания, обучения и визуализации нейронных полей сияния (NeRF) .
Albumentations 1.3: Популярная библиотека аугментации изображений получила новые методы трансформации данных .

Специализированные решения:

Медицина: Исследователи обучили диффузионную модель на снимках МРТ головного мозга, создав датасет из 100 000 синтетических, но реалистичных изображений для обучения врачей и моделей .
Код: Модель CodeGeeX предлагает многоязычную генерацию кода и, в отличие от многих аналогов, доступна для скачивания и локального запуска .
Речевые технологии: Сообщество нашло способы ускорить модель OpenAI Whisper более чем в 3 раза для работы на обычных процессорах .

🎙️ Проекты сообщества: транскрипты Лекса Фридмана 22:09

Андрей Карпатый (известный исследователь ИИ и экс-директор по ИИ в Tesla) реализовал проект по автоматической транскрибации всех выпусков подкаста Лекса Фридмана . Используя скрипты для скачивания с YouTube и модель Whisper от OpenAI, он создал базу данных с поиском по тексту и временными метками. По словам Килчера, это отличный пример того, как открытые технологии позволяют создавать полезные продукты буквально за несколько дней .