# Создатель Stable Diffusion Бьорн Оммер о демократизации ИИ, открытом коде и секретах человеческого зрения

Источник: https://www.youtube.com/watch?v=6CM12Bfoqbs
Канал: Eye on AI
Опубликовано: 22.03.2024

---

Создатель Stable Diffusion Бьорн Оммер — одна из самых влиятельных фигур в современном мире генеративного искусства. В интервью для подкаста Eye on AI он рассказал, почему его команда сделала ставку на открытость и доступность технологий, как человеческий мозг помогает проектировать нейросети и почему бесконечное наращивание вычислительных мощностей (scaling) заводит индустрию в тупик.

## 🧠 Путь к ИИ через тайны человеческого зрения
[[JUMP:01:35]]

Бьорн Оммер, ныне занимающий кафедру ИИ в Мюнхенском университете (LMU Munich), начал свой путь в науке задолго до бума глубокого обучения [01:35]. Получив образование в ETH Zurich и пройдя постдокторантуру в Беркли, он всегда рассматривал искусственный интеллект как способ исследовать «последний фронтир» человечества — разум.

По мнению Оммера, зрение является самым привлекательным окном в человеческий интеллект из-за своей сложности [02:43]. Ученый подчеркивает, что его опыт работы с компьютерным зрением до эпохи нейросетей помогает ему видеть ограничения современных методов:

*   Студенты часто зацикливаются исключительно на глубоком обучении.
*   Многие уроки «старой школы» (до свёрточных сетей) остаются актуальными и сегодня [03:10].
*   Переход от простых задач распознавания (дискриминативный ИИ) к генерации стал для Оммера способом проверить, действительно ли модель понимает устройство мира [04:03].

Оммер приводит наглядный пример с собакой и костью: дискриминативная модель может научиться определять собаку только по наличию кости в кадре, потому что это статистически проще. Но если попросить генеративную модель «показать собаку», и она нарисует только кость — станет очевидно, что модель не усвоила концепцию самого животного [04:41].

## 🛠 Демократизация технологий: ИИ на потребительском «железе»
[[JUMP:05:48]]

Одной из главных проблем современных нейросетей Оммер считает колоссальное потребление вычислительных ресурсов. До появления Stable Diffusion на рынке доминировали модели, требующие суперкомпьютеров не только для обучения, но даже для запуска [06:26].

Оммер выражает обеспокоенность тем, что ИИ становится «фундаментальной технологией», контроль над которой может оказаться в руках лишь нескольких корпораций [06:53]. Его аргументация в пользу демократизации включает следующие пункты:

1.  **Свобода творчества:** Чем больше умов имеют доступ к технологии, тем быстрее идет развитие и тем разнообразнее результат [07:20].
2.  **Приватность:** Бизнесу не обязательно передавать свои конфиденциальные данные гигантам индустрии, если модель можно запустить локально [07:47].
3.  **Доступность:** Технология должна работать на стандартном пользовательском оборудовании стоимостью 300–400 долларов [08:25].

По словам создателя, Stable Diffusion сегодня способна работать даже на мобильных телефонах с оперативной памятью менее 2 ГБ [13:55]. Это стало возможным благодаря экстремальному сжатию: сотни терабайт данных из интернета «упаковываются» в модель размером около 10 ГБ [14:09]. Оммер считает это высшим проявлением интеллекта — способностью абстрагировать суть реальности из огромного объема информации [14:38].

## 🎨 Как работают диффузионные модели: Острова в океане
[[JUMP:09:44]]

Бьорн Оммер объясняет принцип работы диффузионных моделей через простую аналогию с шумом. Процесс обучения выглядит так: к изображению постепенно добавляется шум (сотни или тысячи раз), пока оно не превратится в «белый шум», похожий на помехи телевизора с выдернутым кабелем [10:37]. Затем нейросеть (автоэнкодер) учится обращать этот процесс вспять, восстанавливая изображение из хаоса [10:51].

Для объяснения того, как модель создает новые образы, Оммер использует метафору «островов в Тихом океане»:

*   **Острова** — это обучающие изображения.
*   **Океан** — пустое пространство между ними.
*   **Диффузионная модель** — строит мосты между островами, позволяя «галлюцинировать» новые ландшафты там, где раньше была только вода [11:43].

Хотя модель может работать автономно, пользователю нужен контроль. Для этого используются текстовые подсказки (промпты), которые внедряются в процесс через архитектуру Transformer и механизмы внимания (attention) [12:22].

## 👁 Зрение — это не камера: Уроки биологии для кода
[[JUMP:14:52]]

Оммер утверждает, что восприятие — это активный процесс конструирования реальности мозгом, а не пассивная фиксация пикселей, как в камере [15:19]. Он ссылается на идеи Германа фон Гельмгольца, высказанные более 100 лет назад: мозг строит модель мира и постоянно делает предсказания [15:33].

Ключевой технической проблемой в ИИ Оммер называет «проблему связывания» (Binding Problem) [17:07]. Он приводит пример со стаей птиц:

*   Мы видим треугольную форму клина в небе, хотя ни на одной отдельной птице нет «треугольных» признаков [17:48].
*   Мозг связывает разрозненные объекты в единую структуру.
*   Для ИИ это сложно: нужно одновременно учитывать локальные детали (перья птиц) и глобальный контекст (форму стаи) [18:42].

Решением в Stable Diffusion стало объединение двух архитектур: свёрточные нейросети (CNN) отвечают за сжатие локальных текстур, а диффузионные модели — за понимание глобальных взаимосвязей [19:47].

## 🌐 Open Source против корпоративной закрытости
[[JUMP:24:09]]

Обсуждая противостояние открытых и проприетарных моделей (таких как GPT-4 или DALL-E), Оммер сравнивает свою миссию с созданием Linux для мира ИИ [24:22]. Он приводит несколько аргументов в пользу открытого исходного кода:

*   **Устойчивость системы:** События в OpenAI (например, внезапные смены руководства) показали, что зависимость бизнеса или правительства от одной компании — это риск [29:03].
*   **Экология и экономика:** Зачем десяти компаниям обучать одну и ту же модель с нуля, загрязняя среду выбросами CO2, если можно разделить затраты и использовать общую базу? [27:31]
*   **Безопасность:** Открытые модели позволяют тысячам независимых исследователей проводить «красные тесты» (red teaming) на наличие уязвимостей [28:36].

По мнению Оммера, технологическое преимущество закрытых моделей — лишь вопрос времени (дней, недель или месяцев), и оно не стоит миллиардных инвестиций, если общество не получает к ним доступа [28:09].

## 📉 Тупик масштабирования и новые парадигмы
[[JUMP:41:45]]

Индустрия привыкла считать, что увеличение количества параметров и данных (scaling) — единственный путь к прогрессу. Однако Оммер называет это «заблуждением масштабирования» (fallacy of scaling) [41:45]. По его словам, закон Деннарда (уменьшение транзисторов с ростом частоты) перестал работать еще в 2007 году [42:13].

Оммер выделяет следующие проблемы стратегии «просто добавь GPU»:

*   **Замедление роста:** Даже при огромных вливаниях капитала новые модели (например, GPT-4) в некоторых аспектах становятся даже хуже своих предшественников [43:19].
*   **Ограниченность ресурсов:** Ни деньги, ни вычислительные мощности не бесконечны.
*   **Необходимость качественных скачков:** Современные GPU — это не просто «вакуумные лампы на стероидах». Прогресс случился благодаря изобретению транзистора и интегральных схем [44:27].

Вместо экстенсивного пути Оммер предлагает искать «интеллектуальные решения». Одно из них — **Flow Matching** (потоковое сопоставление) [36:34]. Этот метод позволяет спрямлять траектории в пространстве изображений, что значительно ускоряет работу модели без дорогостоящего процесса дистилляции или переобучения с нуля [37:27].

«Интеллект рождается там, где сложные задачи решаются в условиях ограниченных ресурсов», — резюмирует ученый. Он уверен, что в ближайшие годы нас ждут новые парадигмы в архитектуре ИИ, которые позволят создавать более совершенные «модели мира» без необходимости строить электростанции для каждой новой нейросети [45:07].