Stability AI против корпораций: как Эмад Мостак делает ИИ доступным для каждого

Эмад Мостак, основатель Stability AI, намерен совершить революцию в сфере искусственного интеллекта, сделав мощные генеративные модели доступными не только узкому кругу корпораций, но и каждому владельцу домашнего ПК. В беседе с Янником Кильхером он раскрывает стратегию создания «третьего столпа» в ИИ-исследованиях — независимой силы, способной конкурировать с закрытыми лабораториями Google и OpenAI.

🚀 Миссия Stability AI: демократизация «по-настоящему» 0:00

Инициатива Stability AI позиционируется как альтернативный путь развития технологий, дополняющий традиционную академическую среду и закрытый корпоративный сектор. По словам Эмада Мостака, современный исследователь ИИ обычно стоит перед тремя неутешительными путями:

Академия: отсутствие вычислительных мощностей для реализации масштабных идей.
Бигтех: доступ к ресурсам в обмен на 50-страничные соглашения о неразглашении (NDA) и работу исключительно на нужды продуктовых команд корпораций.
Собственный стартап: тяжелый и зачастую неподходящий для ученых путь операционного управления.

Stability AI призвана решить проблемы финансирования и доступа к вычислительным мощностям для независимых и академических групп. На момент записи интервью организация уже располагала кластером из 4000 видеокарт NVIDIA A100, что, по оценке Мостака, делает её систему 10-м по мощности публичным суперкомпьютером в мире.

💡 Origin: от хедж-фондов к спасению мира 3:45

Эмад Мостак финансировал проект на начальном этапе из собственных средств, заработанных в ходе успешной карьеры управляющего хедж-фондом. Его путь к Stability AI пролегал через масштабные общественные инициативы: в 2020–2021 годах он возглавлял проект по сбору данных о COVID-19 при поддержке Стэнфорда, ВОЗ и Всемирного банка.

Основатель утверждает, что около 80% инвестиций в исследования сейчас направляются в ИИ следующего поколения, и эта технология обладает потенциалом «улучшить человечество». Именно поэтому Stability AI структурирована как «корпорация общественной выгоды» (Benefit Corporation) — коммерческая организация, чья деятельность диктуется не только прибылью, но и миссией.

🖼️ Stable Diffusion: прорыв в эффективности 8:06

Ключевым продуктом, обсуждаемым в интервью, стала модель Stable Diffusion. По утверждению Мостака, она представляет собой качественный скачок по сравнению с аналогами вроде DALL-E 2:

Эффективность: модель в 30 раз эффективнее DALL-E 2.
Доступность: для работы требуется всего 5 ГБ видеопамяти (VRAM), что позволяет запускать её на обычных потребительских видеокартах, в то время как другие модели требуют 20–40 ГБ и работают медленнее.
Скорость: генерация изображения занимает около трех секунд.

Разработка стала результатом коллаборации групп CompVis из Гейдельберга (создатели VQ-GAN), Кэтрин Краусон (RiversHaveWings) и сообществ LAION и EleutherAI. Огромный набор данных LAION-5B объемом 250 терабайт был «сжат» в веса модели размером всего 2 гигабайта.

⚖️ Спор об открытости: доверие против «патернализма» 11:37

Янник Кильхер поднял вопрос о рисках открытого доступа: если нейросеть может генерировать «ужасный контент», не приведет ли это к общественному резонансу? Эмад Мостак занимает жесткую позицию против того, что он называет «патерналистскими инстинктами» крупных игроков.

«Человечество бывает ужасным, и люди используют технологии как во благо, так и во вред. Но реальность такова, что подавляющее большинство людей просто творчески скованы», — утверждает Мостак.

Он критикует закрытые модели за непрозрачную фильтрацию:

По словам Мостака, в DALL-E 2 невозможно было использовать слово «Украина», так как оно считалось политизированным.
Он утверждает, что корпорации навязывают «фильтры разнообразия», из-за которых на запрос «сумоист» система выдает изображения азиатских женщин, что пользователь не может контролировать.
По мнению гостя, закрытые модели не позволяют создавать локальные версии ИИ, учитывающие культурные особенности (например, индийскую культуру), так как доступ к тонкой настройке (fine-tuning) ограничен.

Мостак считает, что ограничение доступа к моделям — это способ централизации контроля, и он предпочитает «доверять людям быть странными», веря, что польза от технологии перевешивает негатив.

💰 Экономика сообщества и «GPU-император» 14:27

Хотя Эмад в шутку называет себя «GPU-императором», решающим, кому давать ресурсы, Stability AI выстраивает системный подход к поддержке талантов:

Зарплаты и бонусы: сотрудники получают компенсации, сопоставимые с Google или Microsoft, но при этом сохраняют право делать свои наработки открытыми (open source).
Revenue Share: 10% выручки от API направляется в специальный пул: половина — создателям конкретных моделей и датасетов, половина — всему сообществу на интересные исследования.
Образование: компания планирует профинансировать обучение 100 PhD-студентов в области ИИ в течение года.

🔮 Будущее: смерть PowerPoint и ментальное здоровье 22:40

В планах Stability AI — выход за рамки генерации картинок в область аудио, видео и 3D-графики. Одной из амбициозных целей Мостак называет «уничтожение PowerPoint». Он считает, что через несколько лет нам не нужно будет вручную двигать блоки на слайдах — достаточно будет сказать компьютеру, что именно нужно изобразить и как это подправить.

Особое внимание Эмад уделяет психологическому климату в сообществе. Сам будучи нейроотличным человеком, он стремится создать среду, поддерживающую исследователей. Одним из проектов, которые он курирует, является 7 Cups — платформа психологической помощи, где работают более 460 тысяч волонтеров и которая ежемесячно помогает 80 миллионам человек.