# Эмад Мостак о Stable Diffusion: «Мы создаем инфраструктуру для человечества»

Источник: https://www.youtube.com/watch?v=63Y1sMmidj4
Канал: The TWIML AI Podcast with Sam Charrington
Опубликовано: 12.12.2022

---

В новом выпуске **The TWIML AI Podcast** Сэм Черрингтон беседует с **Эмадом Мостаком (Emad Mostaque)**, основателем и CEO компании **Stability AI**. Эта компания стоит за созданием **Stable Diffusion** — нейросети, которая произвела революцию в области генерации изображений и стала одним из самых быстрорастущих open-source проектов в истории. Эмад рассказывает о своем пути от хедж-фондов до филантропии, объясняет, почему ИИ должен быть открытым, и делится видением будущего, где контент становится «интеллектуальным».

## 🧩 От хедж-фондов к спасению сына: предыстория основателя
[[JUMP:01:25]]

Путь **Эмада Мостака (Emad Mostaque)** в мир ИИ начался не с желания заработать на технологиях, а с личной семейной драмы. Получив образование в области математики и компьютерных наук, Эмад успел поработать разработчиком в энтерпрайз-секторе и управляющим хедж-фондом, став одним из крупнейших инвесторов в видеоигры [01:25].

Переломный момент наступил, когда его сыну диагностировали аутизм. Врачи утверждали, что лечения не существует, что заставило Эмада оставить карьеру в финансах и направить свои аналитические способности на изучение медицины [01:38].

Ключевые факты этого этапа:

*   **Анализ данных:** Эмад собрал команду ИИ для проведения литературного обзора всех существующих исследований аутизма.
*   **Биохимия:** Они провели биомолекулярный анализ нейромедиаторов (в частности, баланса ГАМК и глутамата), чтобы перепрофилировать существующие лекарства для помощи сыну [01:50].
*   **Результат:** Терапия сработала, и ребенок смог пойти в обычную школу [01:50].

После этого Эмад решил посвятить себя проектам, меняющим мир. Он участвовал в запуске глобального приза **XPRIZE** на сумму $15 млн (при поддержке Илона Маска и Тони Роббинса) для создания приложения, обучающего детей грамоте и счету без интернета [02:03]. Позже, в 2020–2021 годах, он руководил инициативой ООН по борьбе с COVID-19 (CAIAC), создав открытый датасет из 500 000 научных работ [02:30].

## 🖼️ Рождение Stable Diffusion и роль семьи
[[JUMP:03:36]]

Идея создания генеративной модели для изображений пришла к Эмаду благодаря его семилетней дочери. В начале 2021 года, когда OpenAI выпустила модель CLIP, дочь спросила его: «Можешь ли ты сжать все мировые знания в картинки?» [03:48].

Эмад собрал для неё систему на базе VQGAN и CLIP. Девочка создала серию изображений, одно из которых позже продала как NFT за $3500, направив выручку на помощь Индии в борьбе с ковидом [04:13]. Этот случай убедил Эмада, что визуальная коммуникация — самый естественный и в то же время самый сложный для автоматизации способ общения людей [04:26].

История разработки **Stable Diffusion**:

*   **Коллаборация:** Проект не был создан в одиночку. Это был союз лаборатории **CompVis** (Университет Мюнхена), компаний **Runway ML**, **Stability AI** и сообщества **EleutherAI** [05:06].
*   **Ключевые лица:** Разработку возглавляли Бьорн Оммер, Робин Ромбах и Кэтрин Кроусон [05:06].
*   **Масштаб данных:** В основу лег датасет **LAION**, содержащий миллиарды пар «текст-изображение» [05:32].
*   **Релиз:** Официальный запуск состоялся 23 августа 2022 года [05:19].

## 📉 Технологическое чудо: как сжать интернет до 2 гигабайт
[[JUMP:10:08]]

Одной из самых поразительных характеристик **Stable Diffusion** является ее компактность. Эмад сравнивает это с вымышленной технологией сжатия из сериала «Кремниевая долина» (Pied Piper) [10:34].

Технические параметры модели:

*   **Входные данные:** 100 000 гигабайт (100 терабайт) изображений и текста [10:48].
*   **Итоговый файл:** Всего 2 гигабайта, которые могут работать локально на обычном ноутбуке MacBook [11:02].
*   **Параметры:** Модель имеет 890 миллионов параметров, что значительно меньше, чем у языковых моделей вроде GPT-3 (175 миллиардов) [11:27].

По мнению Эмада Мостака, индустрия ИИ слишком долго была зациклена на идее «масштаб — это всё». Он утверждает, что для эффективной работы не нужно скармливать модели все данные мира; достаточно обучить её основным концепциям и принципам [12:04].

Гость отмечает, что **Stable Diffusion** удивительным образом «выучила» физику [22:20]. Если попросить её нарисовать женщину у спокойного озера, она правильно отобразит отражение в воде. Она понимает «сущность грузовика», даже если её просят дорисовать заднюю часть Cyber-трака, которую она никогда не видела [22:48].

## 🛡️ Философия Open Source против «цифрового колониализма»
[[JUMP:27:09]]

Эмад Мостак занимает жесткую позицию в отношении открытости технологий. Он считает, что **Generative AI** — это фундаментальная инфраструктура человечества, которая не должна контролироваться кучкой корпораций в Сан-Франциско [27:09].

Основные аргументы Эмада в пользу открытого кода:

1.  **Борьба с предвзятостью:** В закрытых моделях (например, DALL-E 2) разработчики пытаются бороться с предвзятостью с помощью скрытых фильтров. Эмад приводит пример: если ввести запрос «борец сумо», фильтр может принудительно добавить пол и расу, выдав «индийскую женщину-борца сумо», что выглядит неестественно [27:21].
2.  **Локальный контекст:** Открытый код позволил японскому сообществу создать свой текстовый энкодер, который понимает специфику японской культуры (например, что такое «саларимен») лучше, чем западные модели [27:48].
3.  **Безопасность:** По аналогии с криптографией, открытые системы со временем становятся более безопасными, так как всё сообщество работает над исправлением уязвимостей [28:41].

Эмад открыто критикует **OpenAI** за их решение заблокировать доступ к DALL-E 2 для пользователей из Украины во время конфликта. По его мнению, это «этически и морально неправильно» [40:57]. Он утверждает, что закрытые системы неизбежно становятся инструментами манипуляции и «цифрового колониализма», навязывая западные нормы всему миру [42:02].

## 💼 Бизнес-модель Stability AI и будущее энтерпрайза
[[JUMP:32:13]]

Несмотря на открытость большинства разработок, **Stability AI** — это коммерческая компания. Эмад описывает её как «платформенную компанию», создающую «Слой 1» (Layer 1) для систем ИИ [32:13].

Бизнес-стратегия включает:

*   **Консалтинг и внедрение:** Помощь крупным компаниям в обучении собственных кастомных моделей на их данных [32:51].
*   **Модели к данным:** Вместо того чтобы забирать данные клиента в облако, Stability AI приносит свои модели в закрытый контур заказчика [21:54].
*   **Проприетарные продукты:** Разработка софта вроде **Dream Studio Pro**, который предлагает профессиональные инструменты для анимации, 3D и аудио [32:51].
*   **Партнерство с AWS:** Stability AI использует вычислительные мощности Amazon (кластер из более чем 4000 видеокарт A100) и интегрирует свои решения в **Amazon SageMaker** [35:41].

Эмад считает, что сейчас компаниям не стоит пытаться обучать базовые модели «с нуля» — это слишком дорого (обучение **Stable Diffusion 2** стоило миллионы долларов в рыночных ценах) [34:35]. Вместо этого эффективнее использовать дообучение (fine-tuning) существующих открытых моделей под конкретные задачи.

## 🚀 Прогнозы и уроки
[[JUMP:43:34]]

Завершая беседу, Эмад Мостак подчеркивает, что мы находимся в точке экспоненциального роста. Скорость генерации изображений сократилась с 5.8 секунд до менее чем одной секунды за считанные месяцы [06:27].

Главный урок, который он извлек: ИИ не должен быть «черным ящиком» для избранных. Он надеется, что успех **Stable Diffusion** станет «принудительной функцией», которая заставит других игроков (включая Google и OpenAI) открывать свои разработки [44:02].

«Люди в своей массе хорошие, а не плохие», — утверждает Эмад. Он верит, что если дать человечеству инструменты для визуального самовыражения, это не разрушит мир, а лишь сделает коммуникацию между нами более глубокой и быстрой [43:07].