Кристоф Шуман о проекте LAION-5B: Как энтузиасты создают открытый ИИ

Революция открытых данных: Как проект LAION-5B меняет правила игры в ИИ 0:00

Создание масштабных мультимодальных моделей, таких как DALL-E и CLIP, долгое время оставалось закрытой прерогативой технологических гигантов, скрывавших свои обучающие выборки. Команда энтузиастов под руководством Кристофа Шумана бросила вызов этой монополии, представив LAION-5B — беспрецедентный набор данных, состоящий из 5 миллиардов пар «изображение-текст». В этом интервью ведущий Янник Килхер обсуждает с разработчиками проекта, как любительское начинание превратилось в глобальную инициативу, меняющую подходы к обучению нейросетей.

🏗 Путь от хобби до некоммерческого гиганта 2:34

Проект зародился около 10 месяцев назад на сервере сообщества EleutherAI. Кристоф Шуман, по его собственным словам, будучи учителем информатики и отцом, решил в одиночку заняться сбором данных после того, как другие участники переключились на проект GPT-J.

Развитие проекта проходило несколько ключевых этапов:

«Crawling at Home»: Изначально участники использовали личные GPU и облачные блокноты для скачивания и фильтрации данных из Common Crawl.
Первое спонсорство: Джек из Doodlebot AI первым выделил $10 000 для покрытия инфраструктурных расходов, что позволило масштабировать сбор данных.
Создание НКО: Для официального получения ресурсов и управления вычислительными мощностями, например, суперкомпьютера JUWELS (почти 4000 ускорителей A100), была создана немецкая некоммерческая организация.
Поддержка индустрии: Hugging Face и Stability AI стали ключевыми партнерами, предоставляя вычислительные мощности и инфраструктуру для хранения данных.

По мнению Шумана, разочарование тем, что OpenAI (которую многие теперь иронично называют «Closed AI») не раскрывает данные, стало главным стимулом для создания полностью открытого ресурса.

📊 Технические аспекты и фильтрация 11:11

LAION-5B — это огромный массив данных объемом 240 терабайт (в разрешении 384 пикселя), который требует серьезного подхода к обработке. Главный вопрос критиков заключается в использовании модели CLIP от OpenAI для фильтрации пар «изображение-текст».

Аргументы создателей: Команда признает, что фильтрация не идеальна, но считает её необходимым компромиссом для удаления «шума». Шуман отмечает, что при использовании порога сходства 0.28 (по CLIP B/32) качество значительно возрастает.
Опасения по поводу предвзятости: Ведущий Янник Килхер выразил обеспокоенность, что фильтрация данными от модели OpenAI заставляет новую модель воспроизводить «видение мира» OpenAI.
Планы на будущее: Разработчики рассматривают эксперименты с обучением CLIP на замороженных энкодерах изображений (например, на основе SimMIM или MAE от Meta), что позволит в перспективе отказаться от фильтрации по тексту.

🛡 Безопасность и этические вызовы 40:49

Наличие в сети сомнительного контента неизбежно отражается на наборах данных, собранных из интернета. Создатели подчеркивают, что LAION-5B не предназначен для прямого использования в продакшене без тщательной «доработки».

Команда активно работает над инструментами безопасности:

Классификаторы NSFW: Внедрена модель на основе эмбеддингов CLIP, способная классифицировать тысячи изображений в секунду с точностью выше 96%.
Сотрудничество с университетами: Ведется работа с TU Darmstadt для интеграции классификаторов ненавистнических высказываний и насилия.
Потенциал для исследований: Шуман считает, что открытие доступа к «сырым» данным — это не проблема, а возможность для сообщества безопасников тренировать лучшие фильтры.

По словам гостя, идея о том, что модель можно сделать «идеально безопасной», просто исключив все вредные данные, является наивной, так как всегда найдутся способы обойти такие ограничения.

🚀 Будущее открытого ИИ 28:16

Несмотря на популярность DALL-E, команда LAION сосредоточена на развитии CLIP как фундамента для мультимодальных систем.

Основные перспективы развития по мнению участников:

Объединение модальностей: Создание единого «семантического пространства», где аудио, видео и текст взаимодействуют на уровне абстрактных идей, а не просто токенов.
Демократизация: Создатели стремятся сделать инструменты для работы с данными доступными даже для студентов.
Инфраструктура: Использование потоковой передачи данных напрямую из сети, чтобы снизить требования к локальному хранилищу до 100 ГБ.

Как подытожили участники дискуссии, ключ к развитию отрасли лежит не в создании «непробиваемых» моделей внутри корпораций, а в открытых исследованиях и честном признании ограничений технологий.