LAION-5B: Как энтузиасты создали крупнейший открытый датасет для ИИ

LAION-5B: Как энтузиасты создали крупнейший открытый датасет изображений и текста 0:00

Проект LAION-5B, возглавляемый Кристофом Шуманом, стал поворотной точкой в демократизации исследований искусственного интеллекта. В интервью с Яником Кильхером команда разработчиков — Кристоф Шуман, Ромен Бомо и Кейд Гордон — обсудила создание гигантского набора данных из 5 миллиардов пар «изображение-текст». В то время как крупные корпорации, такие как OpenAI, скрывают свои обучающие данные, LAION делает их полностью открытыми, предоставляя сообществу инструменты для создания собственных мощных моделей, подобных DALL-E или CLIP.

🚀 История возникновения: от хобби до глобального проекта 2:34

Проект зародился около 10 месяцев назад на сервере EleutherAI, когда Кристоф Шуман, школьный учитель и отец, решил самостоятельно воспроизвести успех CLIP.

Начальный этап: Кристоф начал с поиска ссылок в Common Crawl, содержащих альтернативный текст. Изначально проект назывался «Crawling at Home», так как участники использовали обычные Google Colab-ноутбуки и пожертвованные ресурсы сообщества.
Масштабирование: Благодаря помощи Ричарда Бенку, который предоставил GPU в своей спальне для фильтрации данных, команда научилась обрабатывать до 30 миллионов пар «изображение-текст» в день на одной видеокарте 3090.
Первое финансирование: Первым официальным спонсором стал Джек из DoodleBot AI, выделивший $10 000, что позволило перевести проект на более серьезный уровень.
Создание некоммерческой организации: Чтобы официально привлекать ресурсы и распоряжаться средствами, команда учредила немецкую некоммерческую организацию «LAION».

Сегодня проект поддерживают Hugging Face, предоставляя вычислительную инфраструктуру, и Stability AI, обеспечивающая доступ к GPU. Команда также ожидает одобрения заявки на использование 600 000 GPU-часов на суперкомпьютере JUWELS.

🔍 Фильтрация данных и роль CLIP 11:11

Одной из центральных тем обсуждения стала методология формирования датасета. Команда использует модель OpenAI CLIP для оценки того, насколько текст соответствует изображению.

Риски предвзятости: Ведущий Янник Кильхер выразил обеспокоенность тем, что использование модели OpenAI для фильтрации может привести к репликации «мировоззрения» этой модели в датасете LAION.
Аргументы команды: Кристоф Шуман признал, что фильтрация не идеальна, но подчеркнул, что работа с человеческими аннотациями в таком масштабе дает огромный объем новой информации, которую исходная модель могла упустить.
Планы на будущее: Команда планирует эксперименты с использованием замороженного кодировщика изображений, обученного самообучающимся методом (без текста), что в теории позволит отказаться от зависимости от CLIP при фильтрации.

⚖️ Этические вопросы и безопасность 40:49

Релиз LAION-5B вызвал дискуссии о безопасности данных. Критики указывали на наличие в датасете нежелательного контента, так как фильтрация проводилась автоматически, а не вручную.

Позиция LAION: Команда подчеркивает, что LAION — это исследовательский датасет, который не рекомендуется использовать для продакшена без дополнительной очистки.
Инструменты защиты: В новых версиях LAION активно сотрудничает с ТУ Дармштадта для интеграции классификаторов токсичного и неприемлемого контента.
Аргумент за открытость: По мнению участников дискуссии, публикация «сырых» данных — это возможность для исследователей безопасности создать более надежные и открытые инструменты фильтрации, а не скрывать проблему.

Участники сошлись во мнении, что иллюзия «идеально безопасного» набора данных опасна, так как она расслабляет разработчиков. Настоящая безопасность требует глубокого инженерного подхода и осознанного обучения моделей дискриминации вредного контента.

🛠 Как присоединиться к LAION 55:11

Команда LAION активно приглашает к участию всех желающих — от школьников до профессиональных исследователей.

Discord: Основной хаб проекта, где обсуждаются создание датасетов, обучение моделей CLIP/DALL-E и развитие новых идей.
Демократизация: Ромен Бомо отметил, что использование метаданных (размером около 1 ТБ для всего LAION-5B) позволяет исследователям с ограниченными ресурсами создавать собственные подвыборки для конкретных задач.
Вдохновение: Кристоф Шуман привел в пример Тео Комса, который присоединился к проекту в 16 лет, не имея опыта в глубоком обучении, и быстро стал ценным контрибьютором, занимаясь серверной инфраструктурой.