Эмад Мостак о Stable Diffusion: «Мы создаем инфраструктуру для человечества»

The TWIML AI Podcast with Sam Charrington 6,1 тыс. 45 мин 5 мин 12.12.2022
Главное

В новом выпуске The TWIML AI Podcast Сэм Черрингтон беседует с Эмадом Мостаком (Emad Mostaque), основателем и CEO компании Stability AI. Эта компания стоит за созданием Stable Diffusion — нейросети, которая произвела революцию в области генерации изображений и стала одним из самых быстрорастущих open-source проектов в истории. Эмад рассказывает о своем пути от хедж-фондов до филантропии, объясняет, почему ИИ должен быть открытым, и делится видением будущего, где контент становится «интеллектуальным».

🧩 От хедж-фондов к спасению сына: предыстория основателя 1:25

Путь Эмада Мостака (Emad Mostaque) в мир ИИ начался не с желания заработать на технологиях, а с личной семейной драмы. Получив образование в области математики и компьютерных наук, Эмад успел поработать разработчиком в энтерпрайз-секторе и управляющим хедж-фондом, став одним из крупнейших инвесторов в видеоигры .

Переломный момент наступил, когда его сыну диагностировали аутизм. Врачи утверждали, что лечения не существует, что заставило Эмада оставить карьеру в финансах и направить свои аналитические способности на изучение медицины .

Ключевые факты этого этапа:

После этого Эмад решил посвятить себя проектам, меняющим мир. Он участвовал в запуске глобального приза XPRIZE на сумму $15 млн (при поддержке Илона Маска и Тони Роббинса) для создания приложения, обучающего детей грамоте и счету без интернета . Позже, в 2020–2021 годах, он руководил инициативой ООН по борьбе с COVID-19 (CAIAC), создав открытый датасет из 500 000 научных работ .

🖼️ Рождение Stable Diffusion и роль семьи 3:36

Идея создания генеративной модели для изображений пришла к Эмаду благодаря его семилетней дочери. В начале 2021 года, когда OpenAI выпустила модель CLIP, дочь спросила его: «Можешь ли ты сжать все мировые знания в картинки?» .

Эмад собрал для неё систему на базе VQGAN и CLIP. Девочка создала серию изображений, одно из которых позже продала как NFT за $3500, направив выручку на помощь Индии в борьбе с ковидом . Этот случай убедил Эмада, что визуальная коммуникация — самый естественный и в то же время самый сложный для автоматизации способ общения людей .

История разработки Stable Diffusion:

📉 Технологическое чудо: как сжать интернет до 2 гигабайт 10:08

Одной из самых поразительных характеристик Stable Diffusion является ее компактность. Эмад сравнивает это с вымышленной технологией сжатия из сериала «Кремниевая долина» (Pied Piper) .

Технические параметры модели:

По мнению Эмада Мостака, индустрия ИИ слишком долго была зациклена на идее «масштаб — это всё». Он утверждает, что для эффективной работы не нужно скармливать модели все данные мира; достаточно обучить её основным концепциям и принципам .

Гость отмечает, что Stable Diffusion удивительным образом «выучила» физику . Если попросить её нарисовать женщину у спокойного озера, она правильно отобразит отражение в воде. Она понимает «сущность грузовика», даже если её просят дорисовать заднюю часть Cyber-трака, которую она никогда не видела .

🛡️ Философия Open Source против «цифрового колониализма» 27:09

Эмад Мостак занимает жесткую позицию в отношении открытости технологий. Он считает, что Generative AI — это фундаментальная инфраструктура человечества, которая не должна контролироваться кучкой корпораций в Сан-Франциско .

Основные аргументы Эмада в пользу открытого кода:

  1. Борьба с предвзятостью: В закрытых моделях (например, DALL-E 2) разработчики пытаются бороться с предвзятостью с помощью скрытых фильтров. Эмад приводит пример: если ввести запрос «борец сумо», фильтр может принудительно добавить пол и расу, выдав «индийскую женщину-борца сумо», что выглядит неестественно .
  2. Локальный контекст: Открытый код позволил японскому сообществу создать свой текстовый энкодер, который понимает специфику японской культуры (например, что такое «саларимен») лучше, чем западные модели .
  3. Безопасность: По аналогии с криптографией, открытые системы со временем становятся более безопасными, так как всё сообщество работает над исправлением уязвимостей .

Эмад открыто критикует OpenAI за их решение заблокировать доступ к DALL-E 2 для пользователей из Украины во время конфликта. По его мнению, это «этически и морально неправильно» . Он утверждает, что закрытые системы неизбежно становятся инструментами манипуляции и «цифрового колониализма», навязывая западные нормы всему миру .

💼 Бизнес-модель Stability AI и будущее энтерпрайза 32:13

Несмотря на открытость большинства разработок, Stability AI — это коммерческая компания. Эмад описывает её как «платформенную компанию», создающую «Слой 1» (Layer 1) для систем ИИ .

Бизнес-стратегия включает:

Эмад считает, что сейчас компаниям не стоит пытаться обучать базовые модели «с нуля» — это слишком дорого (обучение Stable Diffusion 2 стоило миллионы долларов в рыночных ценах) . Вместо этого эффективнее использовать дообучение (fine-tuning) существующих открытых моделей под конкретные задачи.

🚀 Прогнозы и уроки 43:34

Завершая беседу, Эмад Мостак подчеркивает, что мы находимся в точке экспоненциального роста. Скорость генерации изображений сократилась с 5.8 секунд до менее чем одной секунды за считанные месяцы .

Главный урок, который он извлек: ИИ не должен быть «черным ящиком» для избранных. Он надеется, что успех Stable Diffusion станет «принудительной функцией», которая заставит других игроков (включая Google и OpenAI) открывать свои разработки .

«Люди в своей массе хорошие, а не плохие», — утверждает Эмад. Он верит, что если дать человечеству инструменты для визуального самовыражения, это не разрушит мир, а лишь сделает коммуникацию между нами более глубокой и быстрой .

💬 Цитаты

«Мы сжали 100 000 гигабайт интернета в файл размером 2 ГБ, который работает на вашем MacBook. Это как Pied Piper из сериала Silicon Valley.»

Эмад Мостак 10:34

«ИИ — это инфраструктура, она должна принадлежать человечеству, а не паре компаний в Сан-Франциско.»

Эмад Мостак 40:43

«Open Source всегда будет более безопасным, чем закрытый софт, если сообщество объединится.»

Эмад Мостак 28:41
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Латентное пространство (Latent space)
Сжатое представление данных, в котором нейросеть оперирует концепциями, а не отдельными пикселями.
Диффузионные модели (Diffusion models)
Тип нейросетей, которые создают изображения, постепенно убирая шум из случайной картинки.
Fine-tuning
Процесс дообучения уже готовой модели на узком наборе данных для специфических задач.
CLIP
Модель от OpenAI, которая связывает текст и изображения, позволяя нейросети понимать описания.
📊 Цифры
🗓 Хронология
  1. Январь 2021 Выход модели CLIP от OpenAI, начало экспериментов Эмада с генерацией изображений.
  2. 2021 Запуск Stability AI.
  3. 23 августа 2022 Публичный релиз Stable Diffusion.
  4. Ноябрь 2022 Релиз Stable Diffusion 2.0 с улучшенными фильтрами безопасности.
⚖️ Другая сторона
Искусственный интеллект Stable Diffusion Stability AI Emad Mostaque Generative AI Open Source