Lec 16 MIT: Как работают условные генеративные модели и мультимодальные чат-боты

В рамках курса 6.S191 в MIT профессор Филлип Изола представил глубокий разбор условных генеративных моделей. В отличие от базовых систем, создающих контент «из пустоты», условные модели позволяют точно управлять результатом, преобразуя один тип данных в другой — от раскрашивания черно-белых фото до синтеза белковых структур.

🏗️ Структурированное прогнозирование: почему обычная регрессия бессильна 0:40

Большинство реальных задач в машинном обучении сводятся к так называемому структурированному прогнозированию (structured prediction) . В этом случае выходные данные представляют собой не просто число или метку класса, а высокоразмерный объект: изображение, предложение или 3D-геометрию белка .

Ключевая проблема классических методов (например, метода наименьших квадратов) заключается в том, что они минимизируют среднюю ошибку . Профессор Изола демонстрирует это на примере раскрашивания рубашки:

Если рубашка в обучающей выборке бывает либо бирюзовой, либо розовой с равной вероятностью, модель с L2-потерями выдаст средний цвет .
Результат будет серым или неопределенным, так как «среднее значение» имеет нулевую плотность в реальном распределении данных .
Такой подход игнорирует мультимодальность — наличие нескольких правильных ответов.

Кроме того, при независимом прогнозировании каждого пикселя (unstructured prediction) теряется пространственная связность . В итоге на одном участке изображения модель может выбрать один цвет, а на соседнем — другой, что приводит к «хаотичным осцилляциям» и артефактам .

🎭 GAN как обучаемая функция потерь 23:25

Генеративно-состязательные сети (GAN) решают проблему размытости, заменяя жестко заданные математические формулы обучаемым критиком — дискриминатором .

Дискриминатор (D) учится отличать реальные пары «вход-выход» от поддельных .
Генератор (G) пытается создать такой объект, который дискриминатор примет за настоящий.
Результат: Дискриминатор становится «умной» функцией потерь, которая штрафует модель не за отклонение от среднего пикселя, а за нереалистичность структуры в целом .

Особое внимание Изола уделяет архитектуре PatchGAN . Вместо оценки всего изображения целиком, дискриминатор классифицирует каждый фрагмент (патч). Это позволяет модели фокусироваться на локальных деталях и текстурах. Интересно, что эта технология долгое время оставалась частью Stable Diffusion . Профессор отмечает, что в 2012 году прогресс шел за счет увеличения емкости моделей (гипотез), а современная эпоха (2016–2024) — это битва функций потерь и целевых функций .

🧪 Вариационные автоэнкодеры (VAE) и управление неопределенностью 40:02

В то время как GAN склонны к «коллапсу моды» (выдаче только одного варианта ответа), условные VAE (Conditional VAE) лучше справляются с моделированием всего спектра возможностей .

В этой схеме вводится скрытая переменная z:

z кодирует всё, что не указано во входных данных (например, направление движения объекта или освещение) .
При обучении модель заставляет z соответствовать стандартному нормальному распределению.
На этапе генерации, меняя значения z, пользователь может получать разные, но одинаково вероятные варианты раскраски или композиции .

По словам Изолы, в современных текстовых моделях роль z снижается, так как подробное текстовое описание (промпт) само по себе почти полностью снимает неопределенность .

🗣️ Мультимодальность: как объединить пиксели и токены 51:38

Современные системы вроде ChatGPT (LLaVa) или Stable Diffusion объединяют в себе сразу несколько архитектур. Ключевым механизмом здесь выступает cross-attention (перекрестное внимание) .

Процесс работы мультимодального чат-бота:

Энкодер изображения (ViT) превращает картинку в набор визуальных токенов .
Энкодер текста превращает вопрос в текстовые токены.
Трансформер сопоставляет их: например, запрос «желтая» ищет соответствия в визуальных признаках птицы .

Изола иронично замечает, что даже современные модели иногда не понимают, как они работают. При тестировании ChatGPT на вопрос о собственной архитектуре, модель ответила, что не видит изображений, хотя успешно проанализировала загруженный слайд . Профессор предполагает, что это либо галлюцинация, либо «странная хакерская надстройка» со стороны OpenAI.

🔄 Циклическая согласованность: обучение без учителя 1:11:57

Самый сложный случай — когда у нас нет парных данных (например, мы не можем попросить Сезанна нарисовать фотографию нашей улицы). Для таких задач Филлип Изола предлагает использовать CycleGAN и принцип циклической согласованности (cycle consistency) .

Метод основан на логике обратного перевода:

Если перевести фразу с английского на французский, а затем обратно, должен получиться исходный текст .
В изображениях: если превратить фото в картину Сезанна, а затем картину обратно в фото, мы должны вернуться к оригиналу .

Это заставляет модель сохранять структуру исходного объекта (расположение рек, домов), меняя только стиль (текстуру мазков). Изола упоминает историю Марка Твена о неудачном обратном переводе как пример того, что идеальная биекция между языками (и доменами данных) не всегда возможна, но является мощным ориентиром для ИИ .