Обучение представлений на основе сходства: лекция Сары Бири в MIT

MIT OpenCourseWare 2,4 тыс. 1 ч 16 мин 16 мин 11.02.2026
Главное

Современные архитектуры машинного обучения во многом полагаются на качество скрытых представлений данных, способных фиксировать их глубинную суть. В лекции Массачусетского технологического института (MIT) исследовательница Сара Бири подробно разбирает концепцию обучения представлений на основе сходства (Similarity-Based Representation Learning). Ключевая идея этого подхода заключается в том, чтобы научить модель группировать семантически близкие объекты и разделять контрастные, что позволяет эффективно решать прикладные задачи без необходимости в избыточной и дорогостоящей ручной разметке.

🧩 Зачем обучать представления данных? 0:27

Построение качественных представлений данных (embeddings) является фундаментальной задачей современного искусственного интеллекта. Традиционный подход, при котором нейросеть обучается под одну конкретную задачу, постепенно уступает место универсальным репрезентациям. По словам Сары Бири, существует несколько ключевых причин, почему исследователи стремятся извлекать скрытые векторы признаков вместо прямой работы с сырыми данными:

С практической точки зрения геометрическое сходство в пространстве признаков позволяет использовать математический аппарат для систем поиска информации (retrieval). Модель способна определить, видела ли она конкретное лицо человека ранее, абстрагируясь от случайных факторов — ракурса, освещения или выражения лица. Кроме того, такие пространства значительно повышают качество кластеризации за счет привлечения дополнительной контекстной информации о схожести или различии пар объектов, а также эффективно решают задачу снижения размерности без учителя.

⚖️ Критерии качества: что делает представление «хорошим»? 4:26

Для понимания природы эмбеддингов важно формализовать критерии их качества. Как отмечает лектор, объекты, обладающие близким семантическим смыслом, обязаны располагаться максимально близко друг к другу в скрытом пространстве. Такая концентрация помогает алгоритмам игнорировать внешние возмущения и шумы: если вектор объекта слегка сместится в любом направлении, он все равно останется внутри своей семантической категории. С логической точки зрения гладкое отображение гарантирует, что если два входных аргумента близки, то и результаты их последующей обработки будут похожи.

С точки зрения геометрии, полезным свойством пространства является его линейная разделимость. Если похожие объекты сгруппированы, а разные — разнесены на значительное расстояние, задача классификации тривиализируется: для разделения категорий downstream-функции достаточно провести простые линейные границы (гиперплоскости).

Ян Гудфеллоу в 2016 году сформулировал верхнеуровневый тезис о том, что хорошее представление — это то, которое упрощает последующую задачу обучения. Развивая эту мысль, Сара Бири выделяет два ключевых измерения:

В фундаментальном исследовании 2020 года ученые попытались создать метрики сложности, способные точно прогнозировать способность моделей к генерализации. Выяснилось, что наиболее успешные предикторы опираются на геометрию пространства представлений (согласованность и степень разделимости классов) и его устойчивость к пертурбациям.

Для иллюстрации Бири приводит классический эксперимент с классификатором на датасете CIFAR-10. Если обучить нейросеть на корректных метках, визуализация алгоритма t-SNE покажет идеально структурированное пространство: объекты одинаковых классов (покрашенные в один цвет) сбиваются в плотные, компактные кластеры, которые равномерно распределены и изолированы друг от друга.

Если же взять ту же модель, но скормить ей абсолютно случайные метки (превратив задачу в запоминание шума), сеть все равно сформирует кластеры за счет банального зазубривания обучающей выборки. Однако при визуализации станет видно, что эти группы распределены хаотично, они некомпактны, а цвета сильно перемешаны. Малейшее возмущение вектора в таком пространстве приводит к мгновенному пересечению ложной границы класса, что делает модель абсолютно беспомощной на валидационных данных. Таким образом, качественное представление обязано сочетать компактность, объяснительную силу, высокую концентрацию внутри классов, строгое разделение между ними и робастность к шумам.

📏 Метрическое обучение и геометрическое сходство 11:32

Чтобы заставить нейросеть выстраивать робастные пространства представлений, исследователи используют feedback, основанный на сравнении пар или троек объектов. Лектор проводит наглядную аналогию из когнитивной психологии: если попросить человека, никогда не видевшего слона, описать его с нуля, он назовет его «огромным, массивным, с большими ушами и длинным носом-хоботом». По такой изолированной текстовой инструкции можно нарисовать бесконечное множество фантастических существ, и ни одно не будет похоже на оригинал.

Однако если построить объяснение контрастивно, используя контекст: «Представь, что ты знаешь, как выглядит носорог. Так вот, слон похож на него, но вместо рога у него длинный хобот, а уши значительно больше», — слушатель мгновенно сформирует правильный образ. Сравнение небольших контрастивных различий лежит в основе человеческого восприятия. По такому же принципу орнитологи обучают людей распознаванию близких видов птиц: вместо заучивания сотен независимых атрибутов ученику показывают пару похожих особей и акцентируют внимание на ключевых отличиях — например, цвете лап или форме пятна возле глаза.

Историческим фундаментом этого подхода в машинном обучении стало метрическое обучение (metric learning). Его цель — уйти от наивного подсчета евклидова расстояния в пространстве пикселей (которое крайне чувствительно к малейшим сдвигам кадра) и обучить трансформацию, уважающую семантику объектов.

В простейшем линейном случае мы ищем матрицу преобразования $W$ для перехода в пространство $z = Wx$. Для сохранения подобия используется расстояние Махаланобиса, задаваемое положительно полуопределенной матрицей $A = W^T W$. Математически расстояние между точками записывается следующим образом:

$$||z_i - z_j||^2 = (x_i - x_j)^T W^T W (x_i - x_j) = (x_i - x_j)^T A (x_i - x_j)$$

Первая классическая работа по дистанционному метрическому обучению (distance metric learning), опубликованная в 2003 году, сформулировала эту задачу как оптимизационную проблему с жесткими ограничениями. Алгоритм минимизирует расстояния между всеми парами точек, заведомо объявленными похожими ($S$), при условии, что между всеми непохожими точками ($D$) выдерживается дистанция не менее заданной единичной границы (margin):

$$\min_A \sum_{(x_i, x_j) \in S} ||x_i - x_j||_A^2 \quad \text{при условии} \quad ||x_i - x_j||_A \ge 1 \quad \forall (x_i, x_j) \in D$$

За прошедшие два десятилетия появилось множество модификаций этого принципа. Например, информационно-теоретическое метрическое обучение (ITML) оптимизирует относительную энтропию между гауссианами, накладывая верхние и нижние границы в качестве ограничений. Геометрически это позволяет найти такую проекцию, которая, к примеру, схлопывает нерелевантную ось в бимодальном распределении данных, делая разные классы линейно разделимыми на одной плоскости.

📐 Глубокое метрическое обучение и триплетные потери (Triplet Loss) 20:29

Логичным развитием идеи стало глубокое метрическое обучение (deep metric learning), где линейное отображение заменяется нелинейной функцией — нейросетью $z = f(x)$, веса которой оптимизируются методом стохастического градиентного спуска (SGD). Ключевым инженерным стандартом здесь стала принудительная нормализация эмбеддингов, усаживающая все векторы на единичную гиперсферу. В результате геометрическое расстояние становится эквивалентно углу между векторами, что позволяет заменить ресурсоемкий подсчет евклидовых дистанций на быстрое вычисление скалярного произведения (inner product). Это полностью решает проблему взрыва градиентов из-за масштаба векторов.

В качестве примера Бири демонстрирует фотографии бабочек и мотыльков (Lepidoptera). Человеку без профильного образования крайне сложно с ходу определить видовую принадлежность конкретной особи на изолированном снимке. Но если положить перед ним три фотографии, задача упрощается: любой легко укажет, какие два насекомых более похожи друг на друга, а какое является явным аутсайдером, даже не зная точных названий видов.

Этот когнитивный паттерн математически реализуется через триплетную функцию потерь (triplet loss). Архитектура принимает на вход три объекта одновременно:

Лосс жестко штрафует нейросеть, если расстояние между анкером и негативным примером в пространстве представлений не превышает расстояние между анкером и позитивным примером на заданную величину зазора (margin). Градиент заставляет веса меняться так, чтобы притягивать одинаковые сущности и отталкивать разные. Технически это реализуется в рамках триплетной сети (triplet network) со связанными весами, где все три изображения параллельно проходят через идентичные слои сверточной сети.

Для повышения эффективности вычислений современные алгоритмы не отправляют тройки изолированно. В память видеокарты загружается целый батч, внутри которого программно конструируются все возможные комбинации триплетов. Это максимизирует утилизацию данных и позволяет эффективно проводить майнинг тяжелых негативов (hard negative mining). Сара Бири подчеркивает: если скармливать модели «легкие» примеры, которые она и так успешно разделяет с запасом по margin, лосс будет равен нулю. Модель перестанет получать обучающий сигнал. Только сталкиваясь со сложными, пограничными ошибками, сеть генерирует качественный градиент, заставляющий ее перестраивать структуру скрытого пространства.

Эксперименты на орнитологическом датасете Caltech UCSD Birds наглядно демонстрируют, как триплетный лосс заставляет эмбеддинги группироваться в красивые кластеры по видам птиц. Однако лектор призывает к осторожности, демонстрируя скрытую уязвимость: один из обособленных кластеров объединил крачек (terns) не из-за их анатомических особенностей, а потому, что на всех этих снимках птицы были запечатлены строго в полете на фоне ярко-синего неба. Сеть посчитала цвет фона и позу ключевым признаком сходства. Проведенные под руководством соавтора курса Фила исследования показывают, что человеческий мозг оценивает схожесть многогранно: по перспективе, форме, цвету объекта, контексту окружения и количеству предметов в кадре. Какое именно измерение сходства окажется доминирующим в процессе обучения, напрямую зависит от характера данных и архитектуры лосса.

🔄 Самообучающееся контрастивное представление (Self-Supervised Learning) 30:43

Главная слабость классического метрического обучения — жесткая зависимость от ручной разметки классов. Концепция самообучающегося контрастивного представления (self-supervised contrastive learning) решает эту проблему, объединяя математику метрик с идеями автоматической генерации сигналов. Модель по-прежнему проецирует данные на гиперсферу, используя кросс-энтропию softmax-классификатора для дискриминации объектов на основе углового сходства. Задача — вытянуть скалярное произведение позитивных пар как можно ближе к единице (минимизируя угол между ними) и подавить его для всех негативных пар. Математическим выражением этой логики является контрастивная потеря InfoNCE (Noise Contrastive Estimation).

По мнению Сары Бири, такое самообучение без учителя способно в ряде практических сценариев превосходить классическое предобучение с учителем (supervised pretraining). Наличие жестких человеческих меток заставляет модель фокусироваться исключительно на тех признаках, которые важны для конкретной исторической разметки. В результате сеть намеренно «забывает» другие важные слои информации, которые могли бы критически пригодиться для новых downstream-задач. Пространство на гиперсфере выступает мощным регуляризатором (подобно логистической регрессии), стабилизирует процесс сходимости весов и гарантирует: в финале признаки распределятся так, что для выделения любой новой категории достаточно будет построить простейший линейный классификатор, разрезающий сферу плоскостью.

Поскольку человеческой разметки нет, генерация пар полностью автоматизирована:

В пионерском алгоритме SimCLR для каждого кадра налету создаются две независимые случайные аугментации. Набор деформаций умышленно делается агрессивным: случайное кадрирование с изменением масштаба (crop & resize), зеркальные перевороты (flip), цветовой джиттер (color jitter), случайное затирание кусков кадра (cutout), размытие по Гауссу и фильтрация Собеля для выделения контурных карт. Сеть заставляют понять, что исходный объект под любым экстремальным фильтром обязан сохранять близкие координаты, а все прочие объекты батча должны быть безжалостно отброшены в противоположные стороны гиперсферы.

Слушатели лекции справедливо указали на слабое место схемы: если в один батч случайно попадут две разные фотографии золотистых ретриверов, алгоритм посчитает вторую собаку негативным примером и начнет принудительно расталкивать их векторы. Бири соглашается с этим концептуальным противоречием, но объясняет, что в масштабах длительного обучения этот деструктивный вклад нивелируется законом больших чисел. Вероятность того, что в случайном батче ретривер окажется рядом с машиной, зданием или лодкой, статистически многократно превышает вероятность его встречи с другим ретривером, поэтому итоговый полезный сигнал успешно пробивается сквозь шум.

При этом выбор аугментаций — это ключевой этап внедрения априорных доменных знаний в модель. Разработчик должен четко понимать, к каким изменениям он хочет выработать инвариантность. Например, если модель обучается распознавать медицинские молекулы, текстовые блоки или видео (где позитивными парами служат соседние кадры одного ролика), наборы деформаций будут кардинально отличаться. Ошибка в выборе аугментации может разрушить семантику: если при обучении эмбеддингов для обувного магазина использовать зеркальный переворот (flip), модель сочтет правый и левый ботинок идентичными объектами, что полностью сделает ее непригодной для последующих задач сортировки и поиска. Те же принципы справедливы для современных мультимодальных систем (например, CLIP), где в качестве двух разных «взглядов» (views) на один объект выступают его изображение и текстовое описание.

🔬 Математика потерь: выравнивание (Alignment) и равномерность (Uniformity) 43:30

Эффективность контрастивных систем базируется на тонком балансе двух сущностей: математической структуре лосса и стратегии формирования батча. Формально минимизацию InfoNCE принято мотивировать через максимизацию нижней границы взаимной информации (mutual information) между позитивными парами. Однако Бири ссылается на важное теоретическое исследование, доказавшее парадоксальный факт: прямая и жесткая максимизация взаимной информации в чистом виде ухудшает качество финальных векторов, в то время как более «рыхлые» и слабые математические границы в сочетании с простыми критиками показывают великолепный результат на тестах. Это означает, что реальная механика контрастивных потерь скрывает под собой иные геометрические процессы.

Как оказалось, функция потерь одновременно оптимизирует две независимые метрики — выравнивание (alignment) и равномерность (uniformity).

При асимптотическом анализе (когда число негативных примеров стремится к бесконечности) контрастивный лосс распадается на сумму этих двух компонент. Эксперименты на CIFAR-10 наглядно подтверждают теорию: при использовании self-supervised контрастивного подхода эмбеддинги валидационной выборки распределяются по окружности безупречно ровным слоем. Напротив, классическое обучение с учителем или случайная инициализация весов дают рваные, скученные и далекие от равномерности распределения. Что самое важное, эмпирически доказано: модели, демонстрирующие наивысшую точность (validation accuracy) на downstream-тестах, на графиках строго соответствуют точкам максимальной симультанной минимизации как показателей выравнивания, так и показателей равномерности.

🧪 Ключевые компоненты успеха и практические трюки 51:53

Практическая эволюция self-supervised подходов доказала, что высокая робастность и сходимость моделей опираются на четыре обязательных технических компонента:

  1. Экстремально тяжелые аугментации: В статье SimCLR авторы провели абляционные исследования (ablations) и выяснили: если убрать из пайплайна цветовой джиттер и размытие, оставив только кадрирование (crops), итоговая точность downstream-классификатора рухнет сразу на 15%. Простые пертурбации не позволяют сети выучить инвариантность к базовым факторам среды.
  2. Проекционная голова (Projection Head): Экспериментаторы обнаружили важный трюк: контрастивный лосс нельзя считать прямо на целевом пространстве представлений $h$, которое планируется использовать в будущем. Вместо этого вектор пропускают через промежуточный слой $z = g(h)$ — простую линейную проекцию или компактный двухслойный перцептрон (MLP). Контрастивная ошибка вычисляется для пространства $z$. После завершения обучения голова $g$ полностью отбрасывается, а для всех прикладных задач извлекается сырой вектор $h$. Бири объясняет логику процесса: контрастивный лосс слишком агрессивно выжигает информацию, требуя от аугментированных векторов полного совпадения. Проекционная голова принимает этот удар на себя, позволяя пространству $h$ сохранить тонкую вариативность данных. Лектор находит здесь прямую архитектурную аналогию с разделением проекций ключей, запросов и значений в трансформерах.
  3. Гигантские размеры батчей: Поскольку SimCLR черпает негативные примеры прямо из текущей итерации, качество оценки свойства равномерности напрямую зависит от объема батча. Разница в точности между батчем на 256 объектов и батчем на 8192 объекта в начале обучения составляет колоссальные 10%. Бири с иронией замечает, что именно эта математическая потребность заставляет индустрию скупать GPU, а компанию NVIDIA — выпускать ускорители с беспрецедентными объемами памяти. Проблему дороговизны таких вычислений пытаются решать альтернативные архитектуры: например, MoCo изолирует размер батча от числа негативов с помощью механизма динамической очереди векторов (memory bank).
  4. Удаление ложных негативов: Если исследователям доступна хотя бы частичная или слабая разметка, принудительное исключение из батча объектов, принадлежащих к тому же классу, что и анкер, обеспечивает мощный прирост Top-1 точности на финальных тестах.

Это наблюдение подтолкнуло индустрию к развитию гибридных подходов — контролируемого (supervised) и частично контролируемого (semi-supervised) контрастивного обучения. В них метки классов используются для умышленного объединения разных изображений одного класса в позитивные пары, что дает куда более стабильную и геометрически выверенную структуру эмбеддингов, нежели классическая кросс-энтропия.

🦅 Практический кейс: Анализ датасета iNaturalist 2021 1:01:25

В финальной части лекции Сара Бири переходит от теории к детальному разбору практического кейса на базе масштабного биологического датасета iNaturalist 2021. Этот массив данных включает в себя 2,7 миллиона обучающих изображений, 50 тысяч валидационных и 500 тысяч тестовых снимков, охватывающих 10 000 уникальных видов дикой природы, растений, насекомых и животных.

Уникальность датасета заключается в его строгой иерархической структуре, повторяющей реальное биологическое таксономическое дерево. В самом центре графа находятся максимально грубые (coarse-grained) разделения — например, разница между царством животных (Animalia) и царством растений (Plantae). По мере движения к периферии графа визуальное сходство между категориями нарастает. На самом краю располагаются экстремально близкие (fine-grained) классы — разные виды внутри одного биологического рода, различить которые не всегда способен даже тренированный человек (как в случае с мотыльками Lepidoptera).

Команда исследователей под руководством Илайджи Коула (Elijah Cole) провела масштабный эксперимент: они обучили на данных iNaturalist классическую supervised-модель с нуля, а также две популярные self-supervised контрастивные архитектуры — SimCLR и MoCo. Качество полученных пространств представлений оценивалось методом линейного зондирования (linear probe): веса базовых сетей намертво замораживались, а поверх эмбеддингов обучался простейший линейный классификатор с учителем. Обучение зонда происходило на самом глубоком, видовом уровне, а затем результаты тестирования просто математически агрегировались вверх по таксономическому дереву (к роду, семейству, классу и царству).

Результаты тестирования вскрыли фундаментальную проблему современных self-supervised систем:

Бири объясняет этот феномен природой самих бенчмарков. Датасет ImageNet по своей сути является очень грубым (coarse-grained): его базовые категории визуально сильно отличаются друг от друга. Если посмотреть на поведение графиков iNaturalist на верхних уровнях таксономии (тип, класс, царство), разрыв между supervised и контрастивными методами точно так же стремительно схлопывается до минимума. Контрастивное самообучение отлично улавливает верхнеуровневые различия, но пасует перед микродеталями.

Причину провала наглядно продемонстрировал качественный анализ поисковых запросов (retrieval) методом ближайших соседей. Модели подавали на вход тестовый снимок птицы. Модель, обученная с учителем, в качестве ближайших векторов вернула птиц того же вида или, в крайнем случае, представителей того же биологического рода.

Однако модель SimCLR не смогла вернуть ни одной птицы аналогичного вида. Вместо этого пространство эмбеддингов выдало подборку фотографий, на которых были запечатлены совершенно разные птицы, но у всех них была одна общая черта: их держал в руках человек.

Этот пример обнажает главную ловушку самообучения. Математически алгоритм отработал безупречно: на основе заложенных тяжелых аугментаций сеть честно выстроила инвариантность к шумам и сгруппировала объекты по самому мощному, доминирующему визуальному признаку в батче — контексту человеческих рук. Однако это контекстуальное сходство оказалось абсолютно ортогонально и вредно для истинной downstream-задачи — биологической классификации видов. По словам Сары Бири, если ваш self-supervised сигнал и логика подбора аугментаций не согласуются с финальной прикладной целью, контрастивный лосс гарантированно обеспечит равномерность пространства, но это будет совершенно «не та равномерность и не то сходство», на которые рассчитывал разработчик.

Тем не менее, лектор резюмирует, что контрастивные метрические пространства обладают абсолютным, непревзойденным преимуществом в специфическом классе задач — поиске объектов в открытом множестве (open-set clustering) и индивидуальной идентификации (re-identification). Ярким примером служат системы распознавания лиц (вроде CelebA) или отслеживание конкретных особей животных в дикой природе.

Если классическаяsupervised-модель с кросс-энтропией жестко завязана на фиксированное число классов из обучения и полностью пасует при встрече с незнакомым человеком, то контрастивно обученное метрическое пространство оперирует чистой геометрией. Ему не важно, видела ли модель этого индивида ранее: оценивая взаимное расположение векторов, алгоритм с высокой точностью определит, принадлежат ли два абсолютно новых кадра одному и тому же лицу или перед ним разные люди. Построение умных пространств на основе гибкого баланса сходств и различий остается одним из самых перспективных векторов развития ИИ.

💬 Цитаты

«Вам действительно нужно видеть эти сложные примеры, где ваша модель ошибается, чтобы иметь возможность получить сигнал и градиент, который обучает модель улучшать представление.»

Сара Бири 26:54

«Если у вас нет меры сходства, хорошо согласованной с вашей конечной целью, контрастивные методы дадут вам равномерность, но не ту, которую вы хотите.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Эмбеддинг (Embedding)
Векторное представление объекта в компактном низкоразмерном пространстве, отражающее его семантические свойства.
Расстояние Махаланобиса
Метрика расстояния между векторами, учитывающая ковариацию признаков через положительно полуопределенную матрицу.
Триплетная потеря (Triplet Loss)
Функция потерь, минимизирующая расстояние от базового объекта (анкера) до похожего и максимизирующая до непохожего с учетом заданного зазора.
Аугментация данных (Data Augmentation)
Метод искусственного увеличения объема данных путем применения случайных деформаций и фильтров к исходным объектам.
InfoNCE Loss
Контрастивная функция потерь, аппроксимирующая задачу максимизации взаимной информации между позитивными парами на фоне случайного шума.
Линейный зонд (Linear Probe)
Метод оценки качества скрытых представлений путем обучения простого линейного классификатора поверх замороженных весов нейросети.
📊 Цифры
🗓 Хронология
  1. 2003 год Выход статьи Эрика Ксинга с соавторами, заложившей математический аппарат Distance Metric Learning.
  2. 2016 год Ян Гудфеллоу формулирует фундаментальное определение качественного представления данных, облегчающего последующие задачи.
  3. 2020 год Публикация исследования сложности представлений и их способности предсказывать генерализацию моделей на базе геометрии пространства.
  4. 2021 год Релиз масштабного иерархического биологического датасета iNaturalist 2021, вскрывшего проблемы fine-grained самообучения.
⚖️ Другая сторона
Искусственный интеллект Сара Бири Metric learning Contrastive learning SimCLR Triplet loss