Кристоф Шуман о проекте LAION-5B: Как энтузиасты создают открытый ИИ

Yannic Kilcher 20,5 тыс. 58 мин 3 мин 22.04.2022
Главное

Революция открытых данных: Как проект LAION-5B меняет правила игры в ИИ 0:00

Создание масштабных мультимодальных моделей, таких как DALL-E и CLIP, долгое время оставалось закрытой прерогативой технологических гигантов, скрывавших свои обучающие выборки. Команда энтузиастов под руководством Кристофа Шумана бросила вызов этой монополии, представив LAION-5B — беспрецедентный набор данных, состоящий из 5 миллиардов пар «изображение-текст». В этом интервью ведущий Янник Килхер обсуждает с разработчиками проекта, как любительское начинание превратилось в глобальную инициативу, меняющую подходы к обучению нейросетей.

🏗 Путь от хобби до некоммерческого гиганта 2:34

Проект зародился около 10 месяцев назад на сервере сообщества EleutherAI. Кристоф Шуман, по его собственным словам, будучи учителем информатики и отцом, решил в одиночку заняться сбором данных после того, как другие участники переключились на проект GPT-J.

Развитие проекта проходило несколько ключевых этапов:

По мнению Шумана, разочарование тем, что OpenAI (которую многие теперь иронично называют «Closed AI») не раскрывает данные, стало главным стимулом для создания полностью открытого ресурса.

📊 Технические аспекты и фильтрация 11:11

LAION-5B — это огромный массив данных объемом 240 терабайт (в разрешении 384 пикселя), который требует серьезного подхода к обработке. Главный вопрос критиков заключается в использовании модели CLIP от OpenAI для фильтрации пар «изображение-текст».

🛡 Безопасность и этические вызовы 40:49

Наличие в сети сомнительного контента неизбежно отражается на наборах данных, собранных из интернета. Создатели подчеркивают, что LAION-5B не предназначен для прямого использования в продакшене без тщательной «доработки».

Команда активно работает над инструментами безопасности:

  1. Классификаторы NSFW: Внедрена модель на основе эмбеддингов CLIP, способная классифицировать тысячи изображений в секунду с точностью выше 96%.
  2. Сотрудничество с университетами: Ведется работа с TU Darmstadt для интеграции классификаторов ненавистнических высказываний и насилия.
  3. Потенциал для исследований: Шуман считает, что открытие доступа к «сырым» данным — это не проблема, а возможность для сообщества безопасников тренировать лучшие фильтры.

По словам гостя, идея о том, что модель можно сделать «идеально безопасной», просто исключив все вредные данные, является наивной, так как всегда найдутся способы обойти такие ограничения.

🚀 Будущее открытого ИИ 28:16

Несмотря на популярность DALL-E, команда LAION сосредоточена на развитии CLIP как фундамента для мультимодальных систем.

Основные перспективы развития по мнению участников:

Как подытожили участники дискуссии, ключ к развитию отрасли лежит не в создании «непробиваемых» моделей внутри корпораций, а в открытых исследованиях и честном признании ограничений технологий.

💬 Цитаты

«Я чувствовал себя плохим программистом, а потом подумал: к черту всё, я сделаю это сам.»

Кристоф Шуман 03:39

«Мы не планируем становиться прибыльной компанией. Мы хотим оставаться открытыми.»

Кристоф Шуман 10:46

«Иллюзия, что модель идеально безопасна, потому что мы исключили данные — это наивно.»

Кристоф Шуман 52:53
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
CLIP
Модель от OpenAI, обучающаяся сопоставлять изображения и текст.
Common Crawl
Открытый веб-архив, содержащий петабайты данных из интернета.
NSFW
Контент, не предназначенный для просмотра в рабочее время (откровенный или шокирующий).
Contrastive Loss
Функция потерь, используемая для обучения моделей сближать эмбеддинги схожих объектов.
Zero-shot
Способность модели выполнять задачу без предварительного обучения на конкретных примерах.
📊 Цифры
🗓 Хронология
  1. 2025-07 Начало обсуждения репликации DALL-E и сбора данных на сервере EleutherAI.
  2. 2026-05 Текущий этап проекта, обсуждение масштабов LAION-5B.
⚖️ Другая сторона
Искусственный интеллект LAION-5B OpenAI Кристоф Шуман мультимодальные модели Янник Килхер