LAION-5B: Как энтузиасты создали крупнейший открытый датасет для ИИ

Yannic Kilcher 20,5 тыс. 58 мин 3 мин 22.04.2022
Главное

LAION-5B: Как энтузиасты создали крупнейший открытый датасет изображений и текста 0:00

Проект LAION-5B, возглавляемый Кристофом Шуманом, стал поворотной точкой в демократизации исследований искусственного интеллекта. В интервью с Яником Кильхером команда разработчиков — Кристоф Шуман, Ромен Бомо и Кейд Гордон — обсудила создание гигантского набора данных из 5 миллиардов пар «изображение-текст». В то время как крупные корпорации, такие как OpenAI, скрывают свои обучающие данные, LAION делает их полностью открытыми, предоставляя сообществу инструменты для создания собственных мощных моделей, подобных DALL-E или CLIP.

🚀 История возникновения: от хобби до глобального проекта 2:34

Проект зародился около 10 месяцев назад на сервере EleutherAI, когда Кристоф Шуман, школьный учитель и отец, решил самостоятельно воспроизвести успех CLIP.

Сегодня проект поддерживают Hugging Face, предоставляя вычислительную инфраструктуру, и Stability AI, обеспечивающая доступ к GPU. Команда также ожидает одобрения заявки на использование 600 000 GPU-часов на суперкомпьютере JUWELS.

🔍 Фильтрация данных и роль CLIP 11:11

Одной из центральных тем обсуждения стала методология формирования датасета. Команда использует модель OpenAI CLIP для оценки того, насколько текст соответствует изображению.

⚖️ Этические вопросы и безопасность 40:49

Релиз LAION-5B вызвал дискуссии о безопасности данных. Критики указывали на наличие в датасете нежелательного контента, так как фильтрация проводилась автоматически, а не вручную.

Участники сошлись во мнении, что иллюзия «идеально безопасного» набора данных опасна, так как она расслабляет разработчиков. Настоящая безопасность требует глубокого инженерного подхода и осознанного обучения моделей дискриминации вредного контента.

🛠 Как присоединиться к LAION 55:11

Команда LAION активно приглашает к участию всех желающих — от школьников до профессиональных исследователей.

💬 Цитаты

«Мы не имеем возможности проводить все фундаментальные исследования, но мы можем попытаться делать то, что делают Microsoft или Google Brain, и выпускать такие модели бесплатно.»

Кристоф Шуман 08:19

«Иллюзия того, что моя модель абсолютно безопасна только потому, что я исключил из нее все вредные данные, немного наивна.»

Кристоф Шуман 52:53
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
CLIP
Модель, обучающаяся сопоставлять изображения и их текстовые описания, что позволяет понимать контекст визуальных данных.
Common Crawl
Открытый веб-архив, содержащий петабайты данных, собранных за годы сканирования интернета.
DALL-E
Нейросеть от OpenAI, способная создавать изображения по текстовым описаниям.
Contrastive loss
Функция потерь, используемая для обучения моделей тому, чтобы похожие объекты были ближе друг к другу в векторном пространстве, а разные — дальше.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект LAION-5B Кристоф Шуман CLIP Open Source Машинное обучение