# Lec 16 MIT: Как работают условные генеративные модели и мультимодальные чат-боты

Источник: https://www.youtube.com/watch?v=zaMcHuJwe1w
Канал: MIT OpenCourseWare
Опубликовано: 11.02.2026

---

В рамках курса 6.S191 в MIT профессор Филлип Изола представил глубокий разбор условных генеративных моделей. В отличие от базовых систем, создающих контент «из пустоты», условные модели позволяют точно управлять результатом, преобразуя один тип данных в другой — от раскрашивания черно-белых фото до синтеза белковых структур.

## 🏗️ Структурированное прогнозирование: почему обычная регрессия бессильна
[[JUMP:0:40]]

Большинство реальных задач в машинном обучении сводятся к так называемому структурированному прогнозированию (structured prediction) [1:50]. В этом случае выходные данные представляют собой не просто число или метку класса, а высокоразмерный объект: изображение, предложение или 3D-геометрию белка [3:39].

Ключевая проблема классических методов (например, метода наименьших квадратов) заключается в том, что они минимизируют среднюю ошибку [7:26]. Профессор Изола демонстрирует это на примере раскрашивания рубашки:

*   Если рубашка в обучающей выборке бывает либо бирюзовой, либо розовой с равной вероятностью, модель с L2-потерями выдаст средний цвет [8:07].
*   Результат будет серым или неопределенным, так как «среднее значение» имеет нулевую плотность в реальном распределении данных [8:48].
*   Такой подход игнорирует мультимодальность — наличие нескольких правильных ответов.

Кроме того, при независимом прогнозировании каждого пикселя (unstructured prediction) теряется пространственная связность [12:57]. В итоге на одном участке изображения модель может выбрать один цвет, а на соседнем — другой, что приводит к «хаотичным осцилляциям» и артефактам [15:11].

## 🎭 GAN как обучаемая функция потерь
[[JUMP:23:25]]

Генеративно-состязательные сети (GAN) решают проблему размытости, заменяя жестко заданные математические формулы обучаемым критиком — дискриминатором [28:20].

1.  **Дискриминатор (D)** учится отличать реальные пары «вход-выход» от поддельных [29:39].
2.  **Генератор (G)** пытается создать такой объект, который дискриминатор примет за настоящий.
3.  **Результат:** Дискриминатор становится «умной» функцией потерь, которая штрафует модель не за отклонение от среднего пикселя, а за нереалистичность структуры в целом [28:46].

Особое внимание Изола уделяет архитектуре **PatchGAN** [33:05]. Вместо оценки всего изображения целиком, дискриминатор классифицирует каждый фрагмент (патч). Это позволяет модели фокусироваться на локальных деталях и текстурах. Интересно, что эта технология долгое время оставалась частью Stable Diffusion [34:00]. Профессор отмечает, что в 2012 году прогресс шел за счет увеличения емкости моделей (гипотез), а современная эпоха (2016–2024) — это битва функций потерь и целевых функций [22:41].

## 🧪 Вариационные автоэнкодеры (VAE) и управление неопределенностью
[[JUMP:40:02]]

В то время как GAN склонны к «коллапсу моды» (выдаче только одного варианта ответа), условные VAE (Conditional VAE) лучше справляются с моделированием всего спектра возможностей [40:43].

В этой схеме вводится скрытая переменная **z**:

*   **z** кодирует всё, что не указано во входных данных (например, направление движения объекта или освещение) [45:00].
*   При обучении модель заставляет **z** соответствовать стандартному нормальному распределению.
*   На этапе генерации, меняя значения **z**, пользователь может получать разные, но одинаково вероятные варианты раскраски или композиции [44:33].

По словам Изолы, в современных текстовых моделях роль **z** снижается, так как подробное текстовое описание (промпт) само по себе почти полностью снимает неопределенность [46:10].

## 🗣️ Мультимодальность: как объединить пиксели и токены
[[JUMP:51:38]]

Современные системы вроде ChatGPT (LLaVa) или Stable Diffusion объединяют в себе сразу несколько архитектур. Ключевым механизмом здесь выступает **cross-attention** (перекрестное внимание) [54:18].

Процесс работы мультимодального чат-бота:

1.  **Энкодер изображения (ViT)** превращает картинку в набор визуальных токенов [52:46].
2.  **Энкодер текста** превращает вопрос в текстовые токены.
3.  **Трансформер** сопоставляет их: например, запрос «желтая» ищет соответствия в визуальных признаках птицы [54:45].

Изола иронично замечает, что даже современные модели иногда не понимают, как они работают. При тестировании ChatGPT на вопрос о собственной архитектуре, модель ответила, что не видит изображений, хотя успешно проанализировала загруженный слайд [57:56]. Профессор предполагает, что это либо галлюцинация, либо «странная хакерская надстройка» со стороны OpenAI.

## 🔄 Циклическая согласованность: обучение без учителя
[[JUMP:1:11:57]]

Самый сложный случай — когда у нас нет парных данных (например, мы не можем попросить Сезанна нарисовать фотографию нашей улицы). Для таких задач Филлип Изола предлагает использовать **CycleGAN** и принцип циклической согласованности (cycle consistency) [1:16:29].

Метод основан на логике обратного перевода:

*   Если перевести фразу с английского на французский, а затем обратно, должен получиться исходный текст [1:17:38].
*   В изображениях: если превратить фото в картину Сезанна, а затем картину обратно в фото, мы должны вернуться к оригиналу [1:17:07].

Это заставляет модель сохранять структуру исходного объекта (расположение рек, домов), меняя только стиль (текстуру мазков). Изола упоминает историю Марка Твена о неудачном обратном переводе как пример того, что идеальная биекция между языками (и доменами данных) не всегда возможна, но является мощным ориентиром для ИИ [1:17:23].