# Стэнфордский курс CS236: разбор фундаментальных основ глубокого генеративного ИИ

Источник: https://www.youtube.com/watch?v=XZ0PMRWXBEU
Канал: Stanford Online
Опубликовано: 06.05.2024

---

Курс Стэнфордского университета CS236 открывает глубокое погружение в мир глубоких генеративных моделей — одну из самых востребованных и бурно развивающихся тем в современной индустрии искусственного интеллекта. Преподаватель Стефано знакомит аудиторию с фундаментальными математическими и статистическими принципами, лежащими в основе таких популярных технологий, как ChatGPT, Stable Diffusion и Midjourney. Программа призвана перевести слушателей от простого использования готовых ИИ-инструментов к пониманию их скрытых внутренних механизмов, позволяя в будущем создавать, развертывать и оптимизировать собственные генеративные системы.

## 🧠 Философия генеративного ИИ: понять значит создать
[[JUMP:0:05]]

Лекция начинается с приветствия Стефано, который отмечает, что курс прошел долгий путь развития и сегодня представляет собой зрелую, проверенную временем программу. Преподавание этой дисциплины началось задолго до того, как вокруг генеративного ИИ возник масштабный общественный и промышленный хайп. По словам Стефано, сейчас генерация изображений, текстов и видео находится на пике актуальности как в академической среде, так и в коммерческом секторе. Основная задача курса — дать студентам прочную теоретическую базу для понимания того, как работают современные коммерческие решения и научные публикации.

Профессор подчеркивает, что ключевая сложность в таких дисциплинах, как компьютерное зрение, обработка естественного языка (NLP) и робототехника, заключается в анализе многомерных сложных сигналов. С технической точки зрения любое цифровое изображение является для компьютера просто огромной матрицей чисел. Проблема состоит в том, чтобы эффективно преобразовать этот хаотичный набор цифр в полезное представление, пригодное для принятия решений — например, для распознавания объектов, определения материалов или оценки скорости движения предметов. Аналогичная ситуация наблюдается и в NLP, где системе необходимо извлекать смысл из последовательности текстовых символов.

Для описания сути генеративного подхода Стефано обращается к знаменитой цитате физика Ричарда Фейнмана: «Что я не могу создать, того я не понимаю». В контексте машинного обучения эта философия раскрывается от противного: если алгоритм заявляет, что понимает структуру изображения или смысл текста, то он должен быть способен сгенерировать их с нуля. По мнению лектора, способность большой языковой модели (вроде ChatGPT) генерировать связный, логичный текст свидетельствует о наличии у нее определенного уровня понимания не только грамматических правил, но и базового здравого смысла и законов окружающего мира.

## 📊 От компьютерной графики к статистическим моделям
[[JUMP:5:12]]

Стефано напоминает, что задача генерации контента силами программного обеспечения не нова. Специалисты по компьютерной графике десятилетиями создавали рендереры, способные формировать изображение на основе высокоуровневого описания сцены, учитывающего форму объектов, их цвета и ракурс камеры. Если этот процесс визуализации удается эффективно инвертировать, исследователи получают классический подход к компьютерному зрению, известный как «обратная графика» (inverse graphics).

Однако текущий курс в Стэнфорде сфокусирован не на традиционной графике, а на статистических моделях машинного обучения. Разница между этими подходами заключается в балансе использования априорных знаний (priors) и чистых данных:

* Компьютерная графика базируется на жестких априорных моделях физики, законах распространения света и геометрии.
* Современный генеративный ИИ стремится минимизировать заложенные инженерами правила, полностью полагаясь на извлечение закономерностей из массивных наборов данных, собранных в интернете.

С технической точки зрения рассматриваемые в курсе генеративные модели представляют собой распределения вероятностей $p(x)$ над сложными объектами, такими как картинки или тексты. Модель выступает в роли функции, которая принимает на вход объект $x$ и возвращает скалярное значение вероятности, указывающее, насколько этот объект правдоподобен с точки зрения обучающей выборки. Обучив такую модель, инженеры могут осуществлять сэмплирование (выборку) из данного распределения, тем самым симулируя и создавая новые уникальные данные.

## 🎛 Контролируемая симуляция данных и её практическое применение
[[JUMP:11:07]]

Генеративное моделирование фактически переворачивает привычный пайплайн машинного обучения: данные здесь становятся не входным элементом, а результатом работы программы. Стефано отмечает, что наибольшую ценность для индустрии представляют управляемые симуляторы, поведением которых можно руководить с помощью контрольных сигналов.

Лектор приводит несколько наглядных примеров контролируемой генерации:

* Использование текстового описания (кэпшена) для генерации релевантного изображения.
* Подача на вход черно-белого кадра для получения его автоматически раскрашенной версии.
* Ввод текста на одном языке (например, китайском) для генерации его эквивалента на другом языке (английском), что является основой современных систем машинного перевода.
* Превращение грубых пользовательских набросков и скетчей в детализированные фотореалистичные интерьеры или пейзажи.

Отдельно профессор выделяет высокотехнологичные и социально значимые сферы применения генеративных алгоритмов. В медицине такие модели могут принимать сырые, зашумленные сигналы с аппаратов МРТ или КТ и реконструировать на их основе четкие трехмерные изображения внутренних органов. По словам Стефано, это позволяет существенно сократить время процедуры и снизить дозу радиационного облучения, получаемую пациентом во время диагностики. Кроме того, вычисление плотности вероятности помогает эффективно решать задачи поиска аномалий (outlier detection). Например, генеративная система беспилотного автомобиля может вовремя распознать подготовленную злоумышленниками вредоносную модификацию дорожного знака, оценив ее вероятность как крайне низкую, и передать управление человеку.

## 🚀 Эволюция модальностей: от черно-белых лиц до диффузионного взрыва
[[JUMP:15:47]]

Стефано демонстрирует исторический прогресс генеративных моделей на примере модальности изображений, которой он лично посвятил около десяти лет исследовательской работы. В районе 2014 года вершиной технологических возможностей ИИ было создание размытых, крошечных черно-белых силуэтов лиц, что на тот момент казалось научным прорывом. Последующие годы бурного роста качества и разрешения картинок были продиктованы развитием генеративно-состязательных сетей (GAN).

Однако подлинная революция последних двух-трех лет, по замечанию преподавателя, во многом зародилась именно в стенах Стэнфорда. Аспирант исследовательской группы Стефано по имени Янг Сонг (Yang Song) разработал концепцию диффузионных моделей на основе оценок (score-based diffusion models). Именно эта технология сейчас выступает главным двигателем индустрии и лежит в основе Stable Diffusion, DALL-E от OpenAI и Midjourney.

Современные диффузионные алгоритмы демонстрируют поразительную способность к концептуализации. Лектор демонстрирует ставшие классическими примеры генерации по запросу «астронавт верхом на лошади» и «плюшевый мишка в костюме поет в Пекинской опере». Модели успешно объединяют объекты, которые они вряд ли когда-либо видели вместе в обучающей выборке интернета. По мнению Стефано, это доказывает, что нейросети способны улавливать абстрактный смысл отдельных токенов и правил их пространственного взаимодействия. Самая актуальная на момент проведения лекции модель DALL-E 3 демонстрирует еще более беспрецедентный уровень следования сложным текстовым инструкциям.

Параллельно генеративные подходы практически закрыли потребность в классических инструментах для решения обратных задач обработки изображений. Сюда относятся:

1.  **Super-resolution** — кратное увеличение разрешения и детализации размытых снимков.
2.  **Colorization** — исторически корректное колорирование архивных черно-белых фотографий.
3.  **Inpainting** — умное заполнение пустых или поврежденных областей на холсте.

Профессор демонстрирует работу алгоритма SDEdit, созданного в его лаборатории, который позволяет редактировать изображения с помощью текста или поверхностных мазков кисти. Система может заставить птицу расправить крылья или открыть закрытую до этого коробку, хотя лектор честно признает, что алгоритмы все еще совершают досадные ошибки — например, неестественно деформируют мелкие объекты вроде столовых ножей.

## 🎵 Звук, текст и магия генерации программного кода
[[JUMP:25:55]]

Сфера генерации аудио и речи также пережила масштабную трансформацию. Стефано включает записи, демонстрирующие эволюцию от жесткого роботизированного синтеза речи до революционной модели WaveNet от Google DeepMind, выпущенной в 2016 году. Современные же стандарты 2023 года, использующие комбинацию диффузии, авторегрессионных блоков и механизмов многоголового внимания (multi-head attention), создают человеческий голос с естественными интонациями, эмоциями и тонкими акцентами, полностью лишенными искусственного звучания. Аудиомодели так же эффективно справляются с восстановлением потерянных звуковых частот при телефонных разговорах, работая по принципу inpainting.

В области текстовых больших языковых моделей (LLM) прогресс выглядит не менее впечатляюще. Если в 2019 году текстовые алгоритмы могли лишь поверхностно продолжать начатую фразу, то современная система ChatGPT демонстрирует развитые когнитивные функции. Стефано делится экспериментом: он попросил ChatGPT подсказать, как получить высший балл (A-plus) на его курсе CS236 в Стэнфорде. Нейросеть не просто поняла внутренний университетский код дисциплины, определив, что речь идет о глубоких генеративных моделях, но и выдала 15 детализированных, абсолютно релевантных академических советов.

Из способности генерировать качественный текст напрямую вытекают успехи ИИ в смежных прикладных областях:

* **Машинный перевод:** генерация текста на целевом языке с жесткой привязкой к контексту источника.
* **Генерация кода:** autocomplete-системы способны самостоятельно дописывать тела сложных функций на Python по текстовому описанию, успешно сдавать университетские лабораторные работы и конкурировать с людьми на олимпиадах по программированию.

## 🎬 Видео, робототехника и молекулярный дизайн
[[JUMP:33:36]]

Генерация видео на данный момент остается одним из главных и наиболее сложных технологических фронтов. Видео можно рассматривать как плотный стек последовательных изображений, где критически важно сохранять строгое межкадровое постоянство (coherence). Стефано демонстрирует короткие сгенерированные клипы (например, «римская колесница, запряженная шиной, мчится по снегу») и отмечает, что индустрия прямо сейчас повторяет тот же экспоненциальный путь развития, который ранее прошли статичные картинки. Профессор показывает впечатляющий демонстрационный ролик, смонтированный из генеративных фрагментов, созданный его бывшим аспирантом, и заявляет, что вскоре эти технологии кардинально изменят всю медиаиндустрию.

В сфере робототехники и управления генеративные подходы нашли применение в задачах обучения с подражанием (imitation learning). Опираясь на примеры успешного поведения, продемонстрированные человеком, алгоритмы генерируют траектории действий, позволяющие виртуальным агентам безаварийно управлять автомобилем в симуляторе или координировать манипулятор робота для сортировки предметов.

Огромные надежды на генеративный ИИ возлагает фундаментальная наука. Стефано с гордостью упоминает, что один из ассистентов (TA) его курса является мировым экспертом в области применения диффузионных моделей для синтеза молекул с заданными свойствами и предсказания трехмерной структуры белков. Эти методы позволяют ускорить проектирование лекарств (например, для борьбы с COVID) и поиск новых катализаторов. При этом математический аппарат под капотом этих научных изысканий остается неизменным — это все те же диффузионные и авторегрессионные архитектуры.

В завершение вводного обзора лектор призывает не забывать об этических рисках. Способность компьютеров создавать неотличимый от реальности контент порождает угрозу массового распространения дипфейков и дезинформации, что требует от академического сообщества разработки методов защиты.

## 📐 Теоретический фундамент: три кита и четыре архитектуры CS236
[[JUMP:43:05]]

Преподаватель предупреждает, что курс CS236 спроектирован как очень строгая математическая дисциплина с обилием формул. Программа не ограничивается поверхностным разбором готовых библиотек, а детально препарирует внутреннее устройство алгоритмов, опираясь на три концептуальных столпа:

1.  **Представление (Representation):** изучение того, как именно выражать сложные высокоразмерные распределения вероятностей с помощью нейросетей, и как заставить модель улавливать взаимосвязи между миллионами пикселей или слов одновременно.
2.  **Обучение (Learning):** разбор различных функций потерь (loss functions) и методов оптимизации. Задача сводится к поиску математических способов сравнения распределения реальных данных с распределением модели с целью минимизации различий между ними.
3.  **Вывод (Inference):** алгоритмы эффективного и быстрого сэмплирования из обученных моделей, а также инверсия генерации для извлечения скрытых признаков в рамках обучения без учителя (unsupervised learning).

В течение четверти студенты детально изучат четыре основные фамилии глубоких генеративных моделей, каждая из которых обладает своими уникальными компромиссами (trade-offs):

* **Модели на основе явного правдоподобия (Likelihood-based):** авторегрессионные модели (основа современных LLM) и потоковые модели (Flow-based), работающие с непрерывными данными.
* **Модели со скрытыми переменными (Latent Variable Models):** вариационные автокодировщики (VAE) и их иерархические расширения, увеличивающие выразительную мощность сетей.
* **Неявные генеративные модели (Implicit):** генеративно-состязательные сети (GAN). Они не дают прямого доступа к математической функции правдоподобия, а моделируют непосредственно сам процесс генерации, из-за чего их трудно обучать с помощью классического метода максимального правдоподобия. Для их оптимизации привлекаются специальные двухвыборочные тесты и f-дивергенции.
* **Энергетические и диффузионные модели (Energy-based & Diffusion):** передовой край науки, обеспечивающий наилучшее качество генерации медиаконтента на сегодняшний день.

## 🏫 Правила игры: требования, оценки и проекты
[[JUMP:50:51]]

Для успешного освоения дисциплины от студентов жестко требуется предварительное прохождение базового курса по машинному обучению. Слушатели должны свободно владеть теорией вероятностей, основами математического анализа (включая градиентный спуск и формулу замены переменных), линейной алгеброй и правилом Байеса. Практическая часть опирается на программирование на языке Python с использованием фреймворка PyTorch. Поскольку единого учебника по генеративным моделям в мире не существует, Стефано и его команда создали собственную базу подробных лекционных заметок, а в качестве дополнительного источника рекомендуют использовать известную онлайн-книгу «Deep Learning».

Система оценки студентов распределена следующим образом:

* **Три домашних задания (45% итоговой оценки):** каждое весит 15% и представляет собой комбинацию сложных математических доказательств на бумаге и написания кода на PyTorch.
* **Очный письменный экзамен (Midterm):** проверка теоретических знаний в классе.
* **Исследовательский проект (40% итоговой оценки):** ключевой элемент курса, выполняемый индивидуально или в группах до трех человек.

Работа над проектом разбита на несколько контрольных этапов (милстоунов): подготовка проектного предложения, промежуточный отчет, постерная сессия и финальный научный доклад. По словам лектора, многие студенческие проекты прошлых лет переросли в полноценные публикации на ведущих ИИ-конференциях и даже легли в основу технологических стартапов. 

Студентам предлагается выбрать одно из трех направлений исследования: применить существующую модель к принципиально новому типу данных, попытаться улучшить саму архитектуру (например, скрестить диффузию с GAN-подходом) или провести глубокий теоретический анализ работы алгоритмов, поскольку современная практика генеративного ИИ пока сильно опережает строгую математическую теорию. Для проведения экспериментов Стэнфорд предоставляет студентам ограниченные купоны на вычислительные мощности в Google Cloud.