Создатель Stable Diffusion Бьорн Оммер о демократизации ИИ, открытом коде и секретах человеческого зрения

Создатель Stable Diffusion Бьорн Оммер — одна из самых влиятельных фигур в современном мире генеративного искусства. В интервью для подкаста Eye on AI он рассказал, почему его команда сделала ставку на открытость и доступность технологий, как человеческий мозг помогает проектировать нейросети и почему бесконечное наращивание вычислительных мощностей (scaling) заводит индустрию в тупик.

🧠 Путь к ИИ через тайны человеческого зрения 1:35

Бьорн Оммер, ныне занимающий кафедру ИИ в Мюнхенском университете (LMU Munich), начал свой путь в науке задолго до бума глубокого обучения . Получив образование в ETH Zurich и пройдя постдокторантуру в Беркли, он всегда рассматривал искусственный интеллект как способ исследовать «последний фронтир» человечества — разум.

По мнению Оммера, зрение является самым привлекательным окном в человеческий интеллект из-за своей сложности . Ученый подчеркивает, что его опыт работы с компьютерным зрением до эпохи нейросетей помогает ему видеть ограничения современных методов:

Студенты часто зацикливаются исключительно на глубоком обучении.
Многие уроки «старой школы» (до свёрточных сетей) остаются актуальными и сегодня .
Переход от простых задач распознавания (дискриминативный ИИ) к генерации стал для Оммера способом проверить, действительно ли модель понимает устройство мира .

Оммер приводит наглядный пример с собакой и костью: дискриминативная модель может научиться определять собаку только по наличию кости в кадре, потому что это статистически проще. Но если попросить генеративную модель «показать собаку», и она нарисует только кость — станет очевидно, что модель не усвоила концепцию самого животного .

🛠 Демократизация технологий: ИИ на потребительском «железе» 5:48

Одной из главных проблем современных нейросетей Оммер считает колоссальное потребление вычислительных ресурсов. До появления Stable Diffusion на рынке доминировали модели, требующие суперкомпьютеров не только для обучения, но даже для запуска .

Оммер выражает обеспокоенность тем, что ИИ становится «фундаментальной технологией», контроль над которой может оказаться в руках лишь нескольких корпораций . Его аргументация в пользу демократизации включает следующие пункты:

Свобода творчества: Чем больше умов имеют доступ к технологии, тем быстрее идет развитие и тем разнообразнее результат .
Приватность: Бизнесу не обязательно передавать свои конфиденциальные данные гигантам индустрии, если модель можно запустить локально .
Доступность: Технология должна работать на стандартном пользовательском оборудовании стоимостью 300–400 долларов .

По словам создателя, Stable Diffusion сегодня способна работать даже на мобильных телефонах с оперативной памятью менее 2 ГБ . Это стало возможным благодаря экстремальному сжатию: сотни терабайт данных из интернета «упаковываются» в модель размером около 10 ГБ . Оммер считает это высшим проявлением интеллекта — способностью абстрагировать суть реальности из огромного объема информации .

🎨 Как работают диффузионные модели: Острова в океане 9:44

Бьорн Оммер объясняет принцип работы диффузионных моделей через простую аналогию с шумом. Процесс обучения выглядит так: к изображению постепенно добавляется шум (сотни или тысячи раз), пока оно не превратится в «белый шум», похожий на помехи телевизора с выдернутым кабелем . Затем нейросеть (автоэнкодер) учится обращать этот процесс вспять, восстанавливая изображение из хаоса .

Для объяснения того, как модель создает новые образы, Оммер использует метафору «островов в Тихом океане»:

Острова — это обучающие изображения.
Океан — пустое пространство между ними.
Диффузионная модель — строит мосты между островами, позволяя «галлюцинировать» новые ландшафты там, где раньше была только вода .

Хотя модель может работать автономно, пользователю нужен контроль. Для этого используются текстовые подсказки (промпты), которые внедряются в процесс через архитектуру Transformer и механизмы внимания (attention) .

👁 Зрение — это не камера: Уроки биологии для кода 14:52

Оммер утверждает, что восприятие — это активный процесс конструирования реальности мозгом, а не пассивная фиксация пикселей, как в камере . Он ссылается на идеи Германа фон Гельмгольца, высказанные более 100 лет назад: мозг строит модель мира и постоянно делает предсказания .

Ключевой технической проблемой в ИИ Оммер называет «проблему связывания» (Binding Problem) . Он приводит пример со стаей птиц:

Мы видим треугольную форму клина в небе, хотя ни на одной отдельной птице нет «треугольных» признаков .
Мозг связывает разрозненные объекты в единую структуру.
Для ИИ это сложно: нужно одновременно учитывать локальные детали (перья птиц) и глобальный контекст (форму стаи) .

Решением в Stable Diffusion стало объединение двух архитектур: свёрточные нейросети (CNN) отвечают за сжатие локальных текстур, а диффузионные модели — за понимание глобальных взаимосвязей .

🌐 Open Source против корпоративной закрытости 24:09

Обсуждая противостояние открытых и проприетарных моделей (таких как GPT-4 или DALL-E), Оммер сравнивает свою миссию с созданием Linux для мира ИИ . Он приводит несколько аргументов в пользу открытого исходного кода:

Устойчивость системы: События в OpenAI (например, внезапные смены руководства) показали, что зависимость бизнеса или правительства от одной компании — это риск .
Экология и экономика: Зачем десяти компаниям обучать одну и ту же модель с нуля, загрязняя среду выбросами CO2, если можно разделить затраты и использовать общую базу?
Безопасность: Открытые модели позволяют тысячам независимых исследователей проводить «красные тесты» (red teaming) на наличие уязвимостей .

По мнению Оммера, технологическое преимущество закрытых моделей — лишь вопрос времени (дней, недель или месяцев), и оно не стоит миллиардных инвестиций, если общество не получает к ним доступа .

📉 Тупик масштабирования и новые парадигмы 41:45

Индустрия привыкла считать, что увеличение количества параметров и данных (scaling) — единственный путь к прогрессу. Однако Оммер называет это «заблуждением масштабирования» (fallacy of scaling) . По его словам, закон Деннарда (уменьшение транзисторов с ростом частоты) перестал работать еще в 2007 году .

Оммер выделяет следующие проблемы стратегии «просто добавь GPU»:

Замедление роста: Даже при огромных вливаниях капитала новые модели (например, GPT-4) в некоторых аспектах становятся даже хуже своих предшественников .
Ограниченность ресурсов: Ни деньги, ни вычислительные мощности не бесконечны.
Необходимость качественных скачков: Современные GPU — это не просто «вакуумные лампы на стероидах». Прогресс случился благодаря изобретению транзистора и интегральных схем .

Вместо экстенсивного пути Оммер предлагает искать «интеллектуальные решения». Одно из них — Flow Matching (потоковое сопоставление) . Этот метод позволяет спрямлять траектории в пространстве изображений, что значительно ускоряет работу модели без дорогостоящего процесса дистилляции или переобучения с нуля .

«Интеллект рождается там, где сложные задачи решаются в условиях ограниченных ресурсов», — резюмирует ученый. Он уверен, что в ближайшие годы нас ждут новые парадигмы в архитектуре ИИ, которые позволят создавать более совершенные «модели мира» без необходимости строить электростанции для каждой новой нейросети .