Янник Килчер в новом выпуске ML News представляет масштабный обзор индустрии искусственного интеллекта: от появления «многопользовательской» Stable Diffusion и гонки видеомоделей до финансовых амбиций OpenAI. Выпуск был записан на конференции Machine Learning in Poland (ML in PL), которую ведущий охарактеризовал как мероприятие высочайшего уровня, не уступающее крупнейшим мировым симпозиумам.
🎨 Коллективное творчество и научные стандарты Hugging Face 1:21
Hugging Face запустил проект «Multiplayer Stable Diffusion» — это бесконечный цифровой холст, на котором пользователи могут совместно генерировать изображения . Участники могут выбирать область на канвасе и вводить текстовое описание, которое модель вписывает в общую композицию. Килчер отмечает, что такие инструменты демонстрируют неожиданные способы использования открытых моделей, которые невозможно было предсказать на этапе разработки .
Кроме развлекательного контента, Hugging Face внедряет важные стандарты для научного сообщества:
- Цифровые идентификаторы (DOI): Теперь моделям и датасетам на платформе присваиваются уникальные идентификаторы DOI .
- Воспроизводимость: Это позволяет исследователям ссылаться на конкретные версии артефактов в своих работах.
- Экосистема: Интеграция с общим научным ландшафтом делает использование моделей из Hub более легитимным для академической среды .
💰 Финансовые аппетиты OpenAI и партнерство с Microsoft 3:00
Издание Wall Street Journal сообщило, что Microsoft ведет переговоры об увеличении инвестиций в OpenAI . Ранее технологический гигант уже вложил около 1 миллиарда долларов, получив приоритетный доступ к технологиям OpenAI для своих продуктов (например, интеграция DALL-E 2 в Microsoft Designer и поиск Bing) .
Килчер предлагает два варианта интерпретации этих событий:
- Масштабирование: Стартапы часто привлекают новые раунды финансирования для агрессивного роста и расширения инфраструктуры .
- Дефицит средств: Возможно, компания просто нуждается в деньгах для поддержания текущей операционной деятельности.
По мнению ведущего, планы Microsoft по использованию ИИ в дизайнере и поиске Bing выглядят недостаточно амбициозными для таких объемов инвестиций .
📚 Открытые данные и этика: проект The Stack 4:18
Проект Big Code представил «The Stack» — датасет объемом 3 терабайта, содержащий исходный код под разрешительными лицензиями (MIT, Apache, BSD) . Этот набор данных предназначен для обучения моделей генерации кода, подобных Codex.
Особое внимание уделено юридическим аспектам и желаниям разработчиков:
- Механизм удаления (Opt-out): Авторы кода могут подать запрос на удаление своих данных из коллекции .
- Обязательства пользователей: Скачивая датасет, исследователь соглашается всегда использовать самую актуальную версию, чтобы изменения (удаления кода по просьбе авторов) вступали в силу .
- Юридическая ответственность: Килчер предупреждает, что нажатие кнопки согласия с условиями использования на Hugging Face накладывает на пользователя реальные юридические обязательства .
🎥 Революция Text-to-Video: Google против Meta 7:08
Сразу несколько технологических гигантов представили свои решения в области генерации видео по тексту. Каждая компания выбрала свой уникальный технологический путь.
Подход Google: Imagen Video и Phenaki 7:08
Google Research представила Imagen Video, использующую архитектуру Video U-Net . Модель сочетает диффузионные процессы с сетями супер-разрешения для обеспечения временной стабильности и высокой четкости кадров .
Другая разработка Google — Phenaki — фокусируется на создании длинных видеороликов (до нескольких минут) . В отличие от диффузионных моделей, Phenaki сжимает видео в токенизированное представление и использует авторегрессионную языковую модель для его продолжения. Это позволяет генерировать связные истории, где содержание видео меняется вслед за динамическим текстовым описанием .
Подход Meta: Make-A-Video 9:03
Meta AI (признана экстремистской организацией в РФ) представила Make-A-Video . Особенность модели в том, что она обучается на парах «текст-изображение», а динамику движений осваивает на неразмеченных видеоданных без текстового описания . Фактически модель учится тому, как «ведет себя мир» в движении, и применяет эти знания к статичным картинкам, сгенерированным по тексту .
🧊 3D-генерация и новые архитектуры 10:03
Проект Dream Fusion переносит успехи генеративного ИИ в трехмерное пространство . Вместо использования дефицитных 3D-датасетов, разработчики оптимизируют 3D-сцену (представленную как Neural Radiance Field или NeRF) таким образом, чтобы рендеры этой сцены с любого ракурса максимально соответствовали текстовому описанию в понимании обычной модели Text-to-Image .
В области «чистой» генерации изображений Baidu представила Ernie VilG 2.0, использующую метод «смеси экспертов по шумоподавлению» (Mixture of Denoising Experts) . По оценке Килчера, результаты модели выглядят впечатляюще, однако сам код и веса на данный момент не опубликованы в открытом доступе .
🛠️ Инструменты, библиотеки и «железо» 13:00
Для инженеров и исследователей вышло множество обновлений, упрощающих работу с моделями:
- AITemplate (Meta): Механизм инференса, который оптимизирует граф вычислений и компилирует его в высокопроизводительный C++ код для GPU от NVIDIA и AMD .
- Grand Teton (Meta): Новая открытая архитектура аппаратной платформы для глубокого обучения, призванная стать преемником систем типа DGX .
- NeRF Studio: Полноценная среда для создания, обучения и визуализации нейронных полей сияния (NeRF) .
- Albumentations 1.3: Популярная библиотека аугментации изображений получила новые методы трансформации данных .
Специализированные решения:
- Медицина: Исследователи обучили диффузионную модель на снимках МРТ головного мозга, создав датасет из 100 000 синтетических, но реалистичных изображений для обучения врачей и моделей .
- Код: Модель CodeGeeX предлагает многоязычную генерацию кода и, в отличие от многих аналогов, доступна для скачивания и локального запуска .
- Речевые технологии: Сообщество нашло способы ускорить модель OpenAI Whisper более чем в 3 раза для работы на обычных процессорах .
🎙️ Проекты сообщества: транскрипты Лекса Фридмана 22:09
Андрей Карпатый (известный исследователь ИИ и экс-директор по ИИ в Tesla) реализовал проект по автоматической транскрибации всех выпусков подкаста Лекса Фридмана . Используя скрипты для скачивания с YouTube и модель Whisper от OpenAI, он создал базу данных с поиском по тексту и временными метками. По словам Килчера, это отличный пример того, как открытые технологии позволяют создавать полезные продукты буквально за несколько дней .