В рамках курса 6.S191 в MIT профессор Филлип Изола представил глубокий разбор условных генеративных моделей. В отличие от базовых систем, создающих контент «из пустоты», условные модели позволяют точно управлять результатом, преобразуя один тип данных в другой — от раскрашивания черно-белых фото до синтеза белковых структур.
🏗️ Структурированное прогнозирование: почему обычная регрессия бессильна 0:40
Большинство реальных задач в машинном обучении сводятся к так называемому структурированному прогнозированию (structured prediction) . В этом случае выходные данные представляют собой не просто число или метку класса, а высокоразмерный объект: изображение, предложение или 3D-геометрию белка .
Ключевая проблема классических методов (например, метода наименьших квадратов) заключается в том, что они минимизируют среднюю ошибку . Профессор Изола демонстрирует это на примере раскрашивания рубашки:
- Если рубашка в обучающей выборке бывает либо бирюзовой, либо розовой с равной вероятностью, модель с L2-потерями выдаст средний цвет .
- Результат будет серым или неопределенным, так как «среднее значение» имеет нулевую плотность в реальном распределении данных .
- Такой подход игнорирует мультимодальность — наличие нескольких правильных ответов.
Кроме того, при независимом прогнозировании каждого пикселя (unstructured prediction) теряется пространственная связность . В итоге на одном участке изображения модель может выбрать один цвет, а на соседнем — другой, что приводит к «хаотичным осцилляциям» и артефактам .
🎭 GAN как обучаемая функция потерь 23:25
Генеративно-состязательные сети (GAN) решают проблему размытости, заменяя жестко заданные математические формулы обучаемым критиком — дискриминатором .
- Дискриминатор (D) учится отличать реальные пары «вход-выход» от поддельных .
- Генератор (G) пытается создать такой объект, который дискриминатор примет за настоящий.
- Результат: Дискриминатор становится «умной» функцией потерь, которая штрафует модель не за отклонение от среднего пикселя, а за нереалистичность структуры в целом .
Особое внимание Изола уделяет архитектуре PatchGAN . Вместо оценки всего изображения целиком, дискриминатор классифицирует каждый фрагмент (патч). Это позволяет модели фокусироваться на локальных деталях и текстурах. Интересно, что эта технология долгое время оставалась частью Stable Diffusion . Профессор отмечает, что в 2012 году прогресс шел за счет увеличения емкости моделей (гипотез), а современная эпоха (2016–2024) — это битва функций потерь и целевых функций .
🧪 Вариационные автоэнкодеры (VAE) и управление неопределенностью 40:02
В то время как GAN склонны к «коллапсу моды» (выдаче только одного варианта ответа), условные VAE (Conditional VAE) лучше справляются с моделированием всего спектра возможностей .
В этой схеме вводится скрытая переменная z:
- z кодирует всё, что не указано во входных данных (например, направление движения объекта или освещение) .
- При обучении модель заставляет z соответствовать стандартному нормальному распределению.
- На этапе генерации, меняя значения z, пользователь может получать разные, но одинаково вероятные варианты раскраски или композиции .
По словам Изолы, в современных текстовых моделях роль z снижается, так как подробное текстовое описание (промпт) само по себе почти полностью снимает неопределенность .
🗣️ Мультимодальность: как объединить пиксели и токены 51:38
Современные системы вроде ChatGPT (LLaVa) или Stable Diffusion объединяют в себе сразу несколько архитектур. Ключевым механизмом здесь выступает cross-attention (перекрестное внимание) .
Процесс работы мультимодального чат-бота:
- Энкодер изображения (ViT) превращает картинку в набор визуальных токенов .
- Энкодер текста превращает вопрос в текстовые токены.
- Трансформер сопоставляет их: например, запрос «желтая» ищет соответствия в визуальных признаках птицы .
Изола иронично замечает, что даже современные модели иногда не понимают, как они работают. При тестировании ChatGPT на вопрос о собственной архитектуре, модель ответила, что не видит изображений, хотя успешно проанализировала загруженный слайд . Профессор предполагает, что это либо галлюцинация, либо «странная хакерская надстройка» со стороны OpenAI.
🔄 Циклическая согласованность: обучение без учителя 1:11:57
Самый сложный случай — когда у нас нет парных данных (например, мы не можем попросить Сезанна нарисовать фотографию нашей улицы). Для таких задач Филлип Изола предлагает использовать CycleGAN и принцип циклической согласованности (cycle consistency) .
Метод основан на логике обратного перевода:
- Если перевести фразу с английского на французский, а затем обратно, должен получиться исходный текст .
- В изображениях: если превратить фото в картину Сезанна, а затем картину обратно в фото, мы должны вернуться к оригиналу .
Это заставляет модель сохранять структуру исходного объекта (расположение рек, домов), меняя только стиль (текстуру мазков). Изола упоминает историю Марка Твена о неудачном обратном переводе как пример того, что идеальная биекция между языками (и доменами данных) не всегда возможна, но является мощным ориентиром для ИИ .