Эмад Мостак о Stable Diffusion: «Мы создаем инфраструктуру для человечества»

В новом выпуске The TWIML AI Podcast Сэм Черрингтон беседует с Эмадом Мостаком (Emad Mostaque), основателем и CEO компании Stability AI. Эта компания стоит за созданием Stable Diffusion — нейросети, которая произвела революцию в области генерации изображений и стала одним из самых быстрорастущих open-source проектов в истории. Эмад рассказывает о своем пути от хедж-фондов до филантропии, объясняет, почему ИИ должен быть открытым, и делится видением будущего, где контент становится «интеллектуальным».

🧩 От хедж-фондов к спасению сына: предыстория основателя 1:25

Путь Эмада Мостака (Emad Mostaque) в мир ИИ начался не с желания заработать на технологиях, а с личной семейной драмы. Получив образование в области математики и компьютерных наук, Эмад успел поработать разработчиком в энтерпрайз-секторе и управляющим хедж-фондом, став одним из крупнейших инвесторов в видеоигры .

Переломный момент наступил, когда его сыну диагностировали аутизм. Врачи утверждали, что лечения не существует, что заставило Эмада оставить карьеру в финансах и направить свои аналитические способности на изучение медицины .

Ключевые факты этого этапа:

Анализ данных: Эмад собрал команду ИИ для проведения литературного обзора всех существующих исследований аутизма.
Биохимия: Они провели биомолекулярный анализ нейромедиаторов (в частности, баланса ГАМК и глутамата), чтобы перепрофилировать существующие лекарства для помощи сыну .
Результат: Терапия сработала, и ребенок смог пойти в обычную школу .

После этого Эмад решил посвятить себя проектам, меняющим мир. Он участвовал в запуске глобального приза XPRIZE на сумму $15 млн (при поддержке Илона Маска и Тони Роббинса) для создания приложения, обучающего детей грамоте и счету без интернета . Позже, в 2020–2021 годах, он руководил инициативой ООН по борьбе с COVID-19 (CAIAC), создав открытый датасет из 500 000 научных работ .

🖼️ Рождение Stable Diffusion и роль семьи 3:36

Идея создания генеративной модели для изображений пришла к Эмаду благодаря его семилетней дочери. В начале 2021 года, когда OpenAI выпустила модель CLIP, дочь спросила его: «Можешь ли ты сжать все мировые знания в картинки?» .

Эмад собрал для неё систему на базе VQGAN и CLIP. Девочка создала серию изображений, одно из которых позже продала как NFT за $3500, направив выручку на помощь Индии в борьбе с ковидом . Этот случай убедил Эмада, что визуальная коммуникация — самый естественный и в то же время самый сложный для автоматизации способ общения людей .

История разработки Stable Diffusion:

Коллаборация: Проект не был создан в одиночку. Это был союз лаборатории CompVis (Университет Мюнхена), компаний Runway ML, Stability AI и сообщества EleutherAI .
Ключевые лица: Разработку возглавляли Бьорн Оммер, Робин Ромбах и Кэтрин Кроусон .
Масштаб данных: В основу лег датасет LAION, содержащий миллиарды пар «текст-изображение» .
Релиз: Официальный запуск состоялся 23 августа 2022 года .

📉 Технологическое чудо: как сжать интернет до 2 гигабайт 10:08

Одной из самых поразительных характеристик Stable Diffusion является ее компактность. Эмад сравнивает это с вымышленной технологией сжатия из сериала «Кремниевая долина» (Pied Piper) .

Технические параметры модели:

Входные данные: 100 000 гигабайт (100 терабайт) изображений и текста .
Итоговый файл: Всего 2 гигабайта, которые могут работать локально на обычном ноутбуке MacBook .
Параметры: Модель имеет 890 миллионов параметров, что значительно меньше, чем у языковых моделей вроде GPT-3 (175 миллиардов) .

По мнению Эмада Мостака, индустрия ИИ слишком долго была зациклена на идее «масштаб — это всё». Он утверждает, что для эффективной работы не нужно скармливать модели все данные мира; достаточно обучить её основным концепциям и принципам .

Гость отмечает, что Stable Diffusion удивительным образом «выучила» физику . Если попросить её нарисовать женщину у спокойного озера, она правильно отобразит отражение в воде. Она понимает «сущность грузовика», даже если её просят дорисовать заднюю часть Cyber-трака, которую она никогда не видела .

🛡️ Философия Open Source против «цифрового колониализма» 27:09

Эмад Мостак занимает жесткую позицию в отношении открытости технологий. Он считает, что Generative AI — это фундаментальная инфраструктура человечества, которая не должна контролироваться кучкой корпораций в Сан-Франциско .

Основные аргументы Эмада в пользу открытого кода:

Борьба с предвзятостью: В закрытых моделях (например, DALL-E 2) разработчики пытаются бороться с предвзятостью с помощью скрытых фильтров. Эмад приводит пример: если ввести запрос «борец сумо», фильтр может принудительно добавить пол и расу, выдав «индийскую женщину-борца сумо», что выглядит неестественно .
Локальный контекст: Открытый код позволил японскому сообществу создать свой текстовый энкодер, который понимает специфику японской культуры (например, что такое «саларимен») лучше, чем западные модели .
Безопасность: По аналогии с криптографией, открытые системы со временем становятся более безопасными, так как всё сообщество работает над исправлением уязвимостей .

Эмад открыто критикует OpenAI за их решение заблокировать доступ к DALL-E 2 для пользователей из Украины во время конфликта. По его мнению, это «этически и морально неправильно» . Он утверждает, что закрытые системы неизбежно становятся инструментами манипуляции и «цифрового колониализма», навязывая западные нормы всему миру .

💼 Бизнес-модель Stability AI и будущее энтерпрайза 32:13

Несмотря на открытость большинства разработок, Stability AI — это коммерческая компания. Эмад описывает её как «платформенную компанию», создающую «Слой 1» (Layer 1) для систем ИИ .

Бизнес-стратегия включает:

Консалтинг и внедрение: Помощь крупным компаниям в обучении собственных кастомных моделей на их данных .
Модели к данным: Вместо того чтобы забирать данные клиента в облако, Stability AI приносит свои модели в закрытый контур заказчика .
Проприетарные продукты: Разработка софта вроде Dream Studio Pro, который предлагает профессиональные инструменты для анимации, 3D и аудио .
Партнерство с AWS: Stability AI использует вычислительные мощности Amazon (кластер из более чем 4000 видеокарт A100) и интегрирует свои решения в Amazon SageMaker .

Эмад считает, что сейчас компаниям не стоит пытаться обучать базовые модели «с нуля» — это слишком дорого (обучение Stable Diffusion 2 стоило миллионы долларов в рыночных ценах) . Вместо этого эффективнее использовать дообучение (fine-tuning) существующих открытых моделей под конкретные задачи.

🚀 Прогнозы и уроки 43:34

Завершая беседу, Эмад Мостак подчеркивает, что мы находимся в точке экспоненциального роста. Скорость генерации изображений сократилась с 5.8 секунд до менее чем одной секунды за считанные месяцы .

Главный урок, который он извлек: ИИ не должен быть «черным ящиком» для избранных. Он надеется, что успех Stable Diffusion станет «принудительной функцией», которая заставит других игроков (включая Google и OpenAI) открывать свои разработки .

«Люди в своей массе хорошие, а не плохие», — утверждает Эмад. Он верит, что если дать человечеству инструменты для визуального самовыражения, это не разрушит мир, а лишь сделает коммуникацию между нами более глубокой и быстрой .