Эмад Мостак, основатель Stability AI, намерен совершить революцию в сфере искусственного интеллекта, сделав мощные генеративные модели доступными не только узкому кругу корпораций, но и каждому владельцу домашнего ПК. В беседе с Янником Кильхером он раскрывает стратегию создания «третьего столпа» в ИИ-исследованиях — независимой силы, способной конкурировать с закрытыми лабораториями Google и OpenAI.
🚀 Миссия Stability AI: демократизация «по-настоящему» 0:00
Инициатива Stability AI позиционируется как альтернативный путь развития технологий, дополняющий традиционную академическую среду и закрытый корпоративный сектор. По словам Эмада Мостака, современный исследователь ИИ обычно стоит перед тремя неутешительными путями:
- Академия: отсутствие вычислительных мощностей для реализации масштабных идей.
- Бигтех: доступ к ресурсам в обмен на 50-страничные соглашения о неразглашении (NDA) и работу исключительно на нужды продуктовых команд корпораций.
- Собственный стартап: тяжелый и зачастую неподходящий для ученых путь операционного управления.
Stability AI призвана решить проблемы финансирования и доступа к вычислительным мощностям для независимых и академических групп. На момент записи интервью организация уже располагала кластером из 4000 видеокарт NVIDIA A100, что, по оценке Мостака, делает её систему 10-м по мощности публичным суперкомпьютером в мире.
💡 Origin: от хедж-фондов к спасению мира 3:45
Эмад Мостак финансировал проект на начальном этапе из собственных средств, заработанных в ходе успешной карьеры управляющего хедж-фондом. Его путь к Stability AI пролегал через масштабные общественные инициативы: в 2020–2021 годах он возглавлял проект по сбору данных о COVID-19 при поддержке Стэнфорда, ВОЗ и Всемирного банка.
Основатель утверждает, что около 80% инвестиций в исследования сейчас направляются в ИИ следующего поколения, и эта технология обладает потенциалом «улучшить человечество». Именно поэтому Stability AI структурирована как «корпорация общественной выгоды» (Benefit Corporation) — коммерческая организация, чья деятельность диктуется не только прибылью, но и миссией.
🖼️ Stable Diffusion: прорыв в эффективности 8:06
Ключевым продуктом, обсуждаемым в интервью, стала модель Stable Diffusion. По утверждению Мостака, она представляет собой качественный скачок по сравнению с аналогами вроде DALL-E 2:
- Эффективность: модель в 30 раз эффективнее DALL-E 2.
- Доступность: для работы требуется всего 5 ГБ видеопамяти (VRAM), что позволяет запускать её на обычных потребительских видеокартах, в то время как другие модели требуют 20–40 ГБ и работают медленнее.
- Скорость: генерация изображения занимает около трех секунд.
Разработка стала результатом коллаборации групп CompVis из Гейдельберга (создатели VQ-GAN), Кэтрин Краусон (RiversHaveWings) и сообществ LAION и EleutherAI. Огромный набор данных LAION-5B объемом 250 терабайт был «сжат» в веса модели размером всего 2 гигабайта.
⚖️ Спор об открытости: доверие против «патернализма» 11:37
Янник Кильхер поднял вопрос о рисках открытого доступа: если нейросеть может генерировать «ужасный контент», не приведет ли это к общественному резонансу? Эмад Мостак занимает жесткую позицию против того, что он называет «патерналистскими инстинктами» крупных игроков.
«Человечество бывает ужасным, и люди используют технологии как во благо, так и во вред. Но реальность такова, что подавляющее большинство людей просто творчески скованы», — утверждает Мостак.
Он критикует закрытые модели за непрозрачную фильтрацию:
- По словам Мостака, в DALL-E 2 невозможно было использовать слово «Украина», так как оно считалось политизированным.
- Он утверждает, что корпорации навязывают «фильтры разнообразия», из-за которых на запрос «сумоист» система выдает изображения азиатских женщин, что пользователь не может контролировать.
- По мнению гостя, закрытые модели не позволяют создавать локальные версии ИИ, учитывающие культурные особенности (например, индийскую культуру), так как доступ к тонкой настройке (fine-tuning) ограничен.
Мостак считает, что ограничение доступа к моделям — это способ централизации контроля, и он предпочитает «доверять людям быть странными», веря, что польза от технологии перевешивает негатив.
💰 Экономика сообщества и «GPU-император» 14:27
Хотя Эмад в шутку называет себя «GPU-императором», решающим, кому давать ресурсы, Stability AI выстраивает системный подход к поддержке талантов:
- Зарплаты и бонусы: сотрудники получают компенсации, сопоставимые с Google или Microsoft, но при этом сохраняют право делать свои наработки открытыми (open source).
- Revenue Share: 10% выручки от API направляется в специальный пул: половина — создателям конкретных моделей и датасетов, половина — всему сообществу на интересные исследования.
- Образование: компания планирует профинансировать обучение 100 PhD-студентов в области ИИ в течение года.
🔮 Будущее: смерть PowerPoint и ментальное здоровье 22:40
В планах Stability AI — выход за рамки генерации картинок в область аудио, видео и 3D-графики. Одной из амбициозных целей Мостак называет «уничтожение PowerPoint». Он считает, что через несколько лет нам не нужно будет вручную двигать блоки на слайдах — достаточно будет сказать компьютеру, что именно нужно изобразить и как это подправить.
Особое внимание Эмад уделяет психологическому климату в сообществе. Сам будучи нейроотличным человеком, он стремится создать среду, поддерживающую исследователей. Одним из проектов, которые он курирует, является 7 Cups — платформа психологической помощи, где работают более 460 тысяч волонтеров и которая ежемесячно помогает 80 миллионам человек.