Революция открытых данных: Как проект LAION-5B меняет правила игры в ИИ 0:00
Создание масштабных мультимодальных моделей, таких как DALL-E и CLIP, долгое время оставалось закрытой прерогативой технологических гигантов, скрывавших свои обучающие выборки. Команда энтузиастов под руководством Кристофа Шумана бросила вызов этой монополии, представив LAION-5B — беспрецедентный набор данных, состоящий из 5 миллиардов пар «изображение-текст». В этом интервью ведущий Янник Килхер обсуждает с разработчиками проекта, как любительское начинание превратилось в глобальную инициативу, меняющую подходы к обучению нейросетей.
🏗 Путь от хобби до некоммерческого гиганта 2:34
Проект зародился около 10 месяцев назад на сервере сообщества EleutherAI. Кристоф Шуман, по его собственным словам, будучи учителем информатики и отцом, решил в одиночку заняться сбором данных после того, как другие участники переключились на проект GPT-J.
Развитие проекта проходило несколько ключевых этапов:
- «Crawling at Home»: Изначально участники использовали личные GPU и облачные блокноты для скачивания и фильтрации данных из Common Crawl.
- Первое спонсорство: Джек из Doodlebot AI первым выделил $10 000 для покрытия инфраструктурных расходов, что позволило масштабировать сбор данных.
- Создание НКО: Для официального получения ресурсов и управления вычислительными мощностями, например, суперкомпьютера JUWELS (почти 4000 ускорителей A100), была создана немецкая некоммерческая организация.
- Поддержка индустрии: Hugging Face и Stability AI стали ключевыми партнерами, предоставляя вычислительные мощности и инфраструктуру для хранения данных.
По мнению Шумана, разочарование тем, что OpenAI (которую многие теперь иронично называют «Closed AI») не раскрывает данные, стало главным стимулом для создания полностью открытого ресурса.
📊 Технические аспекты и фильтрация 11:11
LAION-5B — это огромный массив данных объемом 240 терабайт (в разрешении 384 пикселя), который требует серьезного подхода к обработке. Главный вопрос критиков заключается в использовании модели CLIP от OpenAI для фильтрации пар «изображение-текст».
- Аргументы создателей: Команда признает, что фильтрация не идеальна, но считает её необходимым компромиссом для удаления «шума». Шуман отмечает, что при использовании порога сходства 0.28 (по CLIP B/32) качество значительно возрастает.
- Опасения по поводу предвзятости: Ведущий Янник Килхер выразил обеспокоенность, что фильтрация данными от модели OpenAI заставляет новую модель воспроизводить «видение мира» OpenAI.
- Планы на будущее: Разработчики рассматривают эксперименты с обучением CLIP на замороженных энкодерах изображений (например, на основе SimMIM или MAE от Meta), что позволит в перспективе отказаться от фильтрации по тексту.
🛡 Безопасность и этические вызовы 40:49
Наличие в сети сомнительного контента неизбежно отражается на наборах данных, собранных из интернета. Создатели подчеркивают, что LAION-5B не предназначен для прямого использования в продакшене без тщательной «доработки».
Команда активно работает над инструментами безопасности:
- Классификаторы NSFW: Внедрена модель на основе эмбеддингов CLIP, способная классифицировать тысячи изображений в секунду с точностью выше 96%.
- Сотрудничество с университетами: Ведется работа с TU Darmstadt для интеграции классификаторов ненавистнических высказываний и насилия.
- Потенциал для исследований: Шуман считает, что открытие доступа к «сырым» данным — это не проблема, а возможность для сообщества безопасников тренировать лучшие фильтры.
По словам гостя, идея о том, что модель можно сделать «идеально безопасной», просто исключив все вредные данные, является наивной, так как всегда найдутся способы обойти такие ограничения.
🚀 Будущее открытого ИИ 28:16
Несмотря на популярность DALL-E, команда LAION сосредоточена на развитии CLIP как фундамента для мультимодальных систем.
Основные перспективы развития по мнению участников:
- Объединение модальностей: Создание единого «семантического пространства», где аудио, видео и текст взаимодействуют на уровне абстрактных идей, а не просто токенов.
- Демократизация: Создатели стремятся сделать инструменты для работы с данными доступными даже для студентов.
- Инфраструктура: Использование потоковой передачи данных напрямую из сети, чтобы снизить требования к локальному хранилищу до 100 ГБ.
Как подытожили участники дискуссии, ключ к развитию отрасли лежит не в создании «непробиваемых» моделей внутри корпораций, а в открытых исследованиях и честном признании ограничений технологий.