Lec 16 MIT: Как работают условные генеративные модели и мультимодальные чат-боты

MIT OpenCourseWare 1,6 тыс. 1 ч 21 мин 3 мин 11.02.2026
Главное

В рамках курса 6.S191 в MIT профессор Филлип Изола представил глубокий разбор условных генеративных моделей. В отличие от базовых систем, создающих контент «из пустоты», условные модели позволяют точно управлять результатом, преобразуя один тип данных в другой — от раскрашивания черно-белых фото до синтеза белковых структур.

🏗️ Структурированное прогнозирование: почему обычная регрессия бессильна 0:40

Большинство реальных задач в машинном обучении сводятся к так называемому структурированному прогнозированию (structured prediction) . В этом случае выходные данные представляют собой не просто число или метку класса, а высокоразмерный объект: изображение, предложение или 3D-геометрию белка .

Ключевая проблема классических методов (например, метода наименьших квадратов) заключается в том, что они минимизируют среднюю ошибку . Профессор Изола демонстрирует это на примере раскрашивания рубашки:

Кроме того, при независимом прогнозировании каждого пикселя (unstructured prediction) теряется пространственная связность . В итоге на одном участке изображения модель может выбрать один цвет, а на соседнем — другой, что приводит к «хаотичным осцилляциям» и артефактам .

🎭 GAN как обучаемая функция потерь 23:25

Генеративно-состязательные сети (GAN) решают проблему размытости, заменяя жестко заданные математические формулы обучаемым критиком — дискриминатором .

  1. Дискриминатор (D) учится отличать реальные пары «вход-выход» от поддельных .
  2. Генератор (G) пытается создать такой объект, который дискриминатор примет за настоящий.
  3. Результат: Дискриминатор становится «умной» функцией потерь, которая штрафует модель не за отклонение от среднего пикселя, а за нереалистичность структуры в целом .

Особое внимание Изола уделяет архитектуре PatchGAN . Вместо оценки всего изображения целиком, дискриминатор классифицирует каждый фрагмент (патч). Это позволяет модели фокусироваться на локальных деталях и текстурах. Интересно, что эта технология долгое время оставалась частью Stable Diffusion . Профессор отмечает, что в 2012 году прогресс шел за счет увеличения емкости моделей (гипотез), а современная эпоха (2016–2024) — это битва функций потерь и целевых функций .

🧪 Вариационные автоэнкодеры (VAE) и управление неопределенностью 40:02

В то время как GAN склонны к «коллапсу моды» (выдаче только одного варианта ответа), условные VAE (Conditional VAE) лучше справляются с моделированием всего спектра возможностей .

В этой схеме вводится скрытая переменная z:

По словам Изолы, в современных текстовых моделях роль z снижается, так как подробное текстовое описание (промпт) само по себе почти полностью снимает неопределенность .

🗣️ Мультимодальность: как объединить пиксели и токены 51:38

Современные системы вроде ChatGPT (LLaVa) или Stable Diffusion объединяют в себе сразу несколько архитектур. Ключевым механизмом здесь выступает cross-attention (перекрестное внимание) .

Процесс работы мультимодального чат-бота:

  1. Энкодер изображения (ViT) превращает картинку в набор визуальных токенов .
  2. Энкодер текста превращает вопрос в текстовые токены.
  3. Трансформер сопоставляет их: например, запрос «желтая» ищет соответствия в визуальных признаках птицы .

Изола иронично замечает, что даже современные модели иногда не понимают, как они работают. При тестировании ChatGPT на вопрос о собственной архитектуре, модель ответила, что не видит изображений, хотя успешно проанализировала загруженный слайд . Профессор предполагает, что это либо галлюцинация, либо «странная хакерская надстройка» со стороны OpenAI.

🔄 Циклическая согласованность: обучение без учителя 1:11:57

Самый сложный случай — когда у нас нет парных данных (например, мы не можем попросить Сезанна нарисовать фотографию нашей улицы). Для таких задач Филлип Изола предлагает использовать CycleGAN и принцип циклической согласованности (cycle consistency) .

Метод основан на логике обратного перевода:

Это заставляет модель сохранять структуру исходного объекта (расположение рек, домов), меняя только стиль (текстуру мазков). Изола упоминает историю Марка Твена о неудачном обратном переводе как пример того, что идеальная биекция между языками (и доменами данных) не всегда возможна, но является мощным ориентиром для ИИ .

💬 Цитаты

«Среднее значение данных — это минимизатор задачи регрессии с наименьшими квадратами. Но проблема в том, что среднее имеет нулевую плотность в реальном распределении.»

Филлип Изола 08:07

«Дискриминатор — это функция потерь, которую невозможно задать вручную, но можно выучить через игру.»

Филлип Изола 28:46
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Structured Prediction
Задача предсказания объектов со сложной внутренней структурой (изображения, текст) вместо одиночных чисел.
Cross-attention
Механизм в трансформерах, позволяющий сопоставлять данные разных типов, например, слова и части картинки.
Cycle Consistency
Принцип, согласно которому двойное преобразование (туда и обратно) должно возвращать объект к исходному состоянию.
📊 Цифры
🗓 Хронология
  1. 1960s Маргарет Гамильтон работает в MIT над кодом для проекта Аполлон (упомянуто в контексте фото).
  2. 2012 Начало бума глубокого обучения и акцент на емкости гипотез.
  3. 2016-2024 Эпоха генеративного ИИ и развития сложных целевых функций.
  4. 2023 Stable Diffusion и аналогичные модели переходят на использование диффузионных трансформеров.
⚖️ Другая сторона
Искусственный интеллект Phillip Isola MIT Stable Diffusion CycleGAN Cross-attention