Создатель Stable Diffusion Бьорн Оммер о демократизации ИИ, открытом коде и секретах человеческого зрения

Eye on AI 5,5 тыс. 45 мин 5 мин 22.03.2024
Главное

Создатель Stable Diffusion Бьорн Оммер — одна из самых влиятельных фигур в современном мире генеративного искусства. В интервью для подкаста Eye on AI он рассказал, почему его команда сделала ставку на открытость и доступность технологий, как человеческий мозг помогает проектировать нейросети и почему бесконечное наращивание вычислительных мощностей (scaling) заводит индустрию в тупик.

🧠 Путь к ИИ через тайны человеческого зрения 1:35

Бьорн Оммер, ныне занимающий кафедру ИИ в Мюнхенском университете (LMU Munich), начал свой путь в науке задолго до бума глубокого обучения . Получив образование в ETH Zurich и пройдя постдокторантуру в Беркли, он всегда рассматривал искусственный интеллект как способ исследовать «последний фронтир» человечества — разум.

По мнению Оммера, зрение является самым привлекательным окном в человеческий интеллект из-за своей сложности . Ученый подчеркивает, что его опыт работы с компьютерным зрением до эпохи нейросетей помогает ему видеть ограничения современных методов:

Оммер приводит наглядный пример с собакой и костью: дискриминативная модель может научиться определять собаку только по наличию кости в кадре, потому что это статистически проще. Но если попросить генеративную модель «показать собаку», и она нарисует только кость — станет очевидно, что модель не усвоила концепцию самого животного .

🛠 Демократизация технологий: ИИ на потребительском «железе» 5:48

Одной из главных проблем современных нейросетей Оммер считает колоссальное потребление вычислительных ресурсов. До появления Stable Diffusion на рынке доминировали модели, требующие суперкомпьютеров не только для обучения, но даже для запуска .

Оммер выражает обеспокоенность тем, что ИИ становится «фундаментальной технологией», контроль над которой может оказаться в руках лишь нескольких корпораций . Его аргументация в пользу демократизации включает следующие пункты:

  1. Свобода творчества: Чем больше умов имеют доступ к технологии, тем быстрее идет развитие и тем разнообразнее результат .
  2. Приватность: Бизнесу не обязательно передавать свои конфиденциальные данные гигантам индустрии, если модель можно запустить локально .
  3. Доступность: Технология должна работать на стандартном пользовательском оборудовании стоимостью 300–400 долларов .

По словам создателя, Stable Diffusion сегодня способна работать даже на мобильных телефонах с оперативной памятью менее 2 ГБ . Это стало возможным благодаря экстремальному сжатию: сотни терабайт данных из интернета «упаковываются» в модель размером около 10 ГБ . Оммер считает это высшим проявлением интеллекта — способностью абстрагировать суть реальности из огромного объема информации .

🎨 Как работают диффузионные модели: Острова в океане 9:44

Бьорн Оммер объясняет принцип работы диффузионных моделей через простую аналогию с шумом. Процесс обучения выглядит так: к изображению постепенно добавляется шум (сотни или тысячи раз), пока оно не превратится в «белый шум», похожий на помехи телевизора с выдернутым кабелем . Затем нейросеть (автоэнкодер) учится обращать этот процесс вспять, восстанавливая изображение из хаоса .

Для объяснения того, как модель создает новые образы, Оммер использует метафору «островов в Тихом океане»:

Хотя модель может работать автономно, пользователю нужен контроль. Для этого используются текстовые подсказки (промпты), которые внедряются в процесс через архитектуру Transformer и механизмы внимания (attention) .

👁 Зрение — это не камера: Уроки биологии для кода 14:52

Оммер утверждает, что восприятие — это активный процесс конструирования реальности мозгом, а не пассивная фиксация пикселей, как в камере . Он ссылается на идеи Германа фон Гельмгольца, высказанные более 100 лет назад: мозг строит модель мира и постоянно делает предсказания .

Ключевой технической проблемой в ИИ Оммер называет «проблему связывания» (Binding Problem) . Он приводит пример со стаей птиц:

Решением в Stable Diffusion стало объединение двух архитектур: свёрточные нейросети (CNN) отвечают за сжатие локальных текстур, а диффузионные модели — за понимание глобальных взаимосвязей .

🌐 Open Source против корпоративной закрытости 24:09

Обсуждая противостояние открытых и проприетарных моделей (таких как GPT-4 или DALL-E), Оммер сравнивает свою миссию с созданием Linux для мира ИИ . Он приводит несколько аргументов в пользу открытого исходного кода:

По мнению Оммера, технологическое преимущество закрытых моделей — лишь вопрос времени (дней, недель или месяцев), и оно не стоит миллиардных инвестиций, если общество не получает к ним доступа .

📉 Тупик масштабирования и новые парадигмы 41:45

Индустрия привыкла считать, что увеличение количества параметров и данных (scaling) — единственный путь к прогрессу. Однако Оммер называет это «заблуждением масштабирования» (fallacy of scaling) . По его словам, закон Деннарда (уменьшение транзисторов с ростом частоты) перестал работать еще в 2007 году .

Оммер выделяет следующие проблемы стратегии «просто добавь GPU»:

Вместо экстенсивного пути Оммер предлагает искать «интеллектуальные решения». Одно из них — Flow Matching (потоковое сопоставление) . Этот метод позволяет спрямлять траектории в пространстве изображений, что значительно ускоряет работу модели без дорогостоящего процесса дистилляции или переобучения с нуля .

«Интеллект рождается там, где сложные задачи решаются в условиях ограниченных ресурсов», — резюмирует ученый. Он уверен, что в ближайшие годы нас ждут новые парадигмы в архитектуре ИИ, которые позволят создавать более совершенные «модели мира» без необходимости строить электростанции для каждой новой нейросети .

💬 Цитаты

«Интеллект в конечном счете проявляется тогда, когда вам нужно решать сложные проблемы с ограниченными ресурсами.»

Бьорн Оммер 37:54

«Ваша «крепость» (moat) не бесконечна; вопрос лишь в том, через сколько дней, недель или месяцев другие достигнут того же уровня.»

Бьорн Оммер 28:09
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Диффузионные модели
Класс генеративных моделей, которые создают данные (например, изображения), постепенно убирая случайный шум.
Flow Matching
Метод оптимизации обучения генеративных моделей, который делает процесс создания изображения более прямым и быстрым.
Scaling Laws
Эмпирические правила, согласно которым производительность ИИ растет пропорционально количеству данных, параметров и вычислительной мощности.
Binding Problem
Психологический и нейробиологический вопрос о том, как мозг объединяет разрозненные сенсорные сигналы в целостные объекты.
📊 Цифры
🗓 Хронология
  1. 2007 Окончание эпохи масштабирования Деннарда в производстве процессоров.
  2. 2022 Релиз Stable Diffusion (контекст обсуждения демократизации).
  3. 2023 Принятие предварительных правил регулирования ИИ в Евросоюзе, обсуждаемых в интервью.
⚖️ Другая сторона
Искусственный интеллект Stable Diffusion Bjorn Ommer Open Source Scaling Laws компьютерное зрение