В новом выпуске The TWIML AI Podcast Сэм Черрингтон беседует с Эмадом Мостаком (Emad Mostaque), основателем и CEO компании Stability AI. Эта компания стоит за созданием Stable Diffusion — нейросети, которая произвела революцию в области генерации изображений и стала одним из самых быстрорастущих open-source проектов в истории. Эмад рассказывает о своем пути от хедж-фондов до филантропии, объясняет, почему ИИ должен быть открытым, и делится видением будущего, где контент становится «интеллектуальным».
🧩 От хедж-фондов к спасению сына: предыстория основателя 1:25
Путь Эмада Мостака (Emad Mostaque) в мир ИИ начался не с желания заработать на технологиях, а с личной семейной драмы. Получив образование в области математики и компьютерных наук, Эмад успел поработать разработчиком в энтерпрайз-секторе и управляющим хедж-фондом, став одним из крупнейших инвесторов в видеоигры .
Переломный момент наступил, когда его сыну диагностировали аутизм. Врачи утверждали, что лечения не существует, что заставило Эмада оставить карьеру в финансах и направить свои аналитические способности на изучение медицины .
Ключевые факты этого этапа:
- Анализ данных: Эмад собрал команду ИИ для проведения литературного обзора всех существующих исследований аутизма.
- Биохимия: Они провели биомолекулярный анализ нейромедиаторов (в частности, баланса ГАМК и глутамата), чтобы перепрофилировать существующие лекарства для помощи сыну .
- Результат: Терапия сработала, и ребенок смог пойти в обычную школу .
После этого Эмад решил посвятить себя проектам, меняющим мир. Он участвовал в запуске глобального приза XPRIZE на сумму $15 млн (при поддержке Илона Маска и Тони Роббинса) для создания приложения, обучающего детей грамоте и счету без интернета . Позже, в 2020–2021 годах, он руководил инициативой ООН по борьбе с COVID-19 (CAIAC), создав открытый датасет из 500 000 научных работ .
🖼️ Рождение Stable Diffusion и роль семьи 3:36
Идея создания генеративной модели для изображений пришла к Эмаду благодаря его семилетней дочери. В начале 2021 года, когда OpenAI выпустила модель CLIP, дочь спросила его: «Можешь ли ты сжать все мировые знания в картинки?» .
Эмад собрал для неё систему на базе VQGAN и CLIP. Девочка создала серию изображений, одно из которых позже продала как NFT за $3500, направив выручку на помощь Индии в борьбе с ковидом . Этот случай убедил Эмада, что визуальная коммуникация — самый естественный и в то же время самый сложный для автоматизации способ общения людей .
История разработки Stable Diffusion:
- Коллаборация: Проект не был создан в одиночку. Это был союз лаборатории CompVis (Университет Мюнхена), компаний Runway ML, Stability AI и сообщества EleutherAI .
- Ключевые лица: Разработку возглавляли Бьорн Оммер, Робин Ромбах и Кэтрин Кроусон .
- Масштаб данных: В основу лег датасет LAION, содержащий миллиарды пар «текст-изображение» .
- Релиз: Официальный запуск состоялся 23 августа 2022 года .
📉 Технологическое чудо: как сжать интернет до 2 гигабайт 10:08
Одной из самых поразительных характеристик Stable Diffusion является ее компактность. Эмад сравнивает это с вымышленной технологией сжатия из сериала «Кремниевая долина» (Pied Piper) .
Технические параметры модели:
- Входные данные: 100 000 гигабайт (100 терабайт) изображений и текста .
- Итоговый файл: Всего 2 гигабайта, которые могут работать локально на обычном ноутбуке MacBook .
- Параметры: Модель имеет 890 миллионов параметров, что значительно меньше, чем у языковых моделей вроде GPT-3 (175 миллиардов) .
По мнению Эмада Мостака, индустрия ИИ слишком долго была зациклена на идее «масштаб — это всё». Он утверждает, что для эффективной работы не нужно скармливать модели все данные мира; достаточно обучить её основным концепциям и принципам .
Гость отмечает, что Stable Diffusion удивительным образом «выучила» физику . Если попросить её нарисовать женщину у спокойного озера, она правильно отобразит отражение в воде. Она понимает «сущность грузовика», даже если её просят дорисовать заднюю часть Cyber-трака, которую она никогда не видела .
🛡️ Философия Open Source против «цифрового колониализма» 27:09
Эмад Мостак занимает жесткую позицию в отношении открытости технологий. Он считает, что Generative AI — это фундаментальная инфраструктура человечества, которая не должна контролироваться кучкой корпораций в Сан-Франциско .
Основные аргументы Эмада в пользу открытого кода:
- Борьба с предвзятостью: В закрытых моделях (например, DALL-E 2) разработчики пытаются бороться с предвзятостью с помощью скрытых фильтров. Эмад приводит пример: если ввести запрос «борец сумо», фильтр может принудительно добавить пол и расу, выдав «индийскую женщину-борца сумо», что выглядит неестественно .
- Локальный контекст: Открытый код позволил японскому сообществу создать свой текстовый энкодер, который понимает специфику японской культуры (например, что такое «саларимен») лучше, чем западные модели .
- Безопасность: По аналогии с криптографией, открытые системы со временем становятся более безопасными, так как всё сообщество работает над исправлением уязвимостей .
Эмад открыто критикует OpenAI за их решение заблокировать доступ к DALL-E 2 для пользователей из Украины во время конфликта. По его мнению, это «этически и морально неправильно» . Он утверждает, что закрытые системы неизбежно становятся инструментами манипуляции и «цифрового колониализма», навязывая западные нормы всему миру .
💼 Бизнес-модель Stability AI и будущее энтерпрайза 32:13
Несмотря на открытость большинства разработок, Stability AI — это коммерческая компания. Эмад описывает её как «платформенную компанию», создающую «Слой 1» (Layer 1) для систем ИИ .
Бизнес-стратегия включает:
- Консалтинг и внедрение: Помощь крупным компаниям в обучении собственных кастомных моделей на их данных .
- Модели к данным: Вместо того чтобы забирать данные клиента в облако, Stability AI приносит свои модели в закрытый контур заказчика .
- Проприетарные продукты: Разработка софта вроде Dream Studio Pro, который предлагает профессиональные инструменты для анимации, 3D и аудио .
- Партнерство с AWS: Stability AI использует вычислительные мощности Amazon (кластер из более чем 4000 видеокарт A100) и интегрирует свои решения в Amazon SageMaker .
Эмад считает, что сейчас компаниям не стоит пытаться обучать базовые модели «с нуля» — это слишком дорого (обучение Stable Diffusion 2 стоило миллионы долларов в рыночных ценах) . Вместо этого эффективнее использовать дообучение (fine-tuning) существующих открытых моделей под конкретные задачи.
🚀 Прогнозы и уроки 43:34
Завершая беседу, Эмад Мостак подчеркивает, что мы находимся в точке экспоненциального роста. Скорость генерации изображений сократилась с 5.8 секунд до менее чем одной секунды за считанные месяцы .
Главный урок, который он извлек: ИИ не должен быть «черным ящиком» для избранных. Он надеется, что успех Stable Diffusion станет «принудительной функцией», которая заставит других игроков (включая Google и OpenAI) открывать свои разработки .
«Люди в своей массе хорошие, а не плохие», — утверждает Эмад. Он верит, что если дать человечеству инструменты для визуального самовыражения, это не разрушит мир, а лишь сделает коммуникацию между нами более глубокой и быстрой .