Обучение представлений на основе сходства: лекция Сары Бири в MIT

Современные архитектуры машинного обучения во многом полагаются на качество скрытых представлений данных, способных фиксировать их глубинную суть. В лекции Массачусетского технологического института (MIT) исследовательница Сара Бири подробно разбирает концепцию обучения представлений на основе сходства (Similarity-Based Representation Learning). Ключевая идея этого подхода заключается в том, чтобы научить модель группировать семантически близкие объекты и разделять контрастные, что позволяет эффективно решать прикладные задачи без необходимости в избыточной и дорогостоящей ручной разметке.

🧩 Зачем обучать представления данных? 0:27

Построение качественных представлений данных (embeddings) является фундаментальной задачей современного искусственного интеллекта. Традиционный подход, при котором нейросеть обучается под одну конкретную задачу, постепенно уступает место универсальным репрезентациям. По словам Сары Бири, существует несколько ключевых причин, почему исследователи стремятся извлекать скрытые векторы признаков вместо прямой работы с сырыми данными:

Многозадачность: Качественно обученное представление может служить универсальным фундаментом для решения широкого спектра совершенно разных downstream-задач.
Компактность и вычислительная эффективность: Работа со сжатыми векторами требует значительно меньше ресурсов, чем обработка высокоразмерных исходных объектов (например, тяжелых изображений высокого разрешения). При этом лектор оговаривается, что компактность — это осознанный выбор инженера: технически возможно построить пространство представлений, превосходящее по размеру входной сигнал.
Улучшенная генерализация: Модель извлекает семантический смысл и устойчивые структурные компоненты, благодаря чему она стабильнее ведет себя на новых, ранее не встречавшихся распределениях данных.
Эффективный transfer learning: Предобученное пространство эмбеддингов гораздо легче поддается тонкой настройке (fine-tuning). На этом этапе алгоритму требуется в разы меньше размеченных примеров для достижения высокой точности.

С практической точки зрения геометрическое сходство в пространстве признаков позволяет использовать математический аппарат для систем поиска информации (retrieval). Модель способна определить, видела ли она конкретное лицо человека ранее, абстрагируясь от случайных факторов — ракурса, освещения или выражения лица. Кроме того, такие пространства значительно повышают качество кластеризации за счет привлечения дополнительной контекстной информации о схожести или различии пар объектов, а также эффективно решают задачу снижения размерности без учителя.

⚖️ Критерии качества: что делает представление «хорошим»? 4:26

Для понимания природы эмбеддингов важно формализовать критерии их качества. Как отмечает лектор, объекты, обладающие близким семантическим смыслом, обязаны располагаться максимально близко друг к другу в скрытом пространстве. Такая концентрация помогает алгоритмам игнорировать внешние возмущения и шумы: если вектор объекта слегка сместится в любом направлении, он все равно останется внутри своей семантической категории. С логической точки зрения гладкое отображение гарантирует, что если два входных аргумента близки, то и результаты их последующей обработки будут похожи.

С точки зрения геометрии, полезным свойством пространства является его линейная разделимость. Если похожие объекты сгруппированы, а разные — разнесены на значительное расстояние, задача классификации тривиализируется: для разделения категорий downstream-функции достаточно провести простые линейные границы (гиперплоскости).

Ян Гудфеллоу в 2016 году сформулировал верхнеуровневый тезис о том, что хорошее представление — это то, которое упрощает последующую задачу обучения. Развивая эту мысль, Сара Бири выделяет два ключевых измерения:

Компактность: Вектор не должен обладать избыточной емкостью, сохраняя строго необходимый объем информации ради вычислительной эффективности.
Объяснительность (explanatory): Представление должно быть достаточным для фиксации ключевых скрытых факторов иDimension исходных данных. Понятие объяснительности всегда контекстуально и жестко привязано к характеру будущих прикладных задач.

В фундаментальном исследовании 2020 года ученые попытались создать метрики сложности, способные точно прогнозировать способность моделей к генерализации. Выяснилось, что наиболее успешные предикторы опираются на геометрию пространства представлений (согласованность и степень разделимости классов) и его устойчивость к пертурбациям.

Для иллюстрации Бири приводит классический эксперимент с классификатором на датасете CIFAR-10. Если обучить нейросеть на корректных метках, визуализация алгоритма t-SNE покажет идеально структурированное пространство: объекты одинаковых классов (покрашенные в один цвет) сбиваются в плотные, компактные кластеры, которые равномерно распределены и изолированы друг от друга.

Если же взять ту же модель, но скормить ей абсолютно случайные метки (превратив задачу в запоминание шума), сеть все равно сформирует кластеры за счет банального зазубривания обучающей выборки. Однако при визуализации станет видно, что эти группы распределены хаотично, они некомпактны, а цвета сильно перемешаны. Малейшее возмущение вектора в таком пространстве приводит к мгновенному пересечению ложной границы класса, что делает модель абсолютно беспомощной на валидационных данных. Таким образом, качественное представление обязано сочетать компактность, объяснительную силу, высокую концентрацию внутри классов, строгое разделение между ними и робастность к шумам.

📏 Метрическое обучение и геометрическое сходство 11:32

Чтобы заставить нейросеть выстраивать робастные пространства представлений, исследователи используют feedback, основанный на сравнении пар или троек объектов. Лектор проводит наглядную аналогию из когнитивной психологии: если попросить человека, никогда не видевшего слона, описать его с нуля, он назовет его «огромным, массивным, с большими ушами и длинным носом-хоботом». По такой изолированной текстовой инструкции можно нарисовать бесконечное множество фантастических существ, и ни одно не будет похоже на оригинал.

Однако если построить объяснение контрастивно, используя контекст: «Представь, что ты знаешь, как выглядит носорог. Так вот, слон похож на него, но вместо рога у него длинный хобот, а уши значительно больше», — слушатель мгновенно сформирует правильный образ. Сравнение небольших контрастивных различий лежит в основе человеческого восприятия. По такому же принципу орнитологи обучают людей распознаванию близких видов птиц: вместо заучивания сотен независимых атрибутов ученику показывают пару похожих особей и акцентируют внимание на ключевых отличиях — например, цвете лап или форме пятна возле глаза.

Историческим фундаментом этого подхода в машинном обучении стало метрическое обучение (metric learning). Его цель — уйти от наивного подсчета евклидова расстояния в пространстве пикселей (которое крайне чувствительно к малейшим сдвигам кадра) и обучить трансформацию, уважающую семантику объектов.

В простейшем линейном случае мы ищем матрицу преобразования $W$ для перехода в пространство $z = Wx$. Для сохранения подобия используется расстояние Махаланобиса, задаваемое положительно полуопределенной матрицей $A = W^T W$. Математически расстояние между точками записывается следующим образом:

$$||z_i - z_j||^2 = (x_i - x_j)^T W^T W (x_i - x_j) = (x_i - x_j)^T A (x_i - x_j)$$

Первая классическая работа по дистанционному метрическому обучению (distance metric learning), опубликованная в 2003 году, сформулировала эту задачу как оптимизационную проблему с жесткими ограничениями. Алгоритм минимизирует расстояния между всеми парами точек, заведомо объявленными похожими ($S$), при условии, что между всеми непохожими точками ($D$) выдерживается дистанция не менее заданной единичной границы (margin):

$$\min_A \sum_{(x_i, x_j) \in S} ||x_i - x_j||_A^2 \quad \text{при условии} \quad ||x_i - x_j||_A \ge 1 \quad \forall (x_i, x_j) \in D$$

За прошедшие два десятилетия появилось множество модификаций этого принципа. Например, информационно-теоретическое метрическое обучение (ITML) оптимизирует относительную энтропию между гауссианами, накладывая верхние и нижние границы в качестве ограничений. Геометрически это позволяет найти такую проекцию, которая, к примеру, схлопывает нерелевантную ось в бимодальном распределении данных, делая разные классы линейно разделимыми на одной плоскости.

📐 Глубокое метрическое обучение и триплетные потери (Triplet Loss) 20:29

Логичным развитием идеи стало глубокое метрическое обучение (deep metric learning), где линейное отображение заменяется нелинейной функцией — нейросетью $z = f(x)$, веса которой оптимизируются методом стохастического градиентного спуска (SGD). Ключевым инженерным стандартом здесь стала принудительная нормализация эмбеддингов, усаживающая все векторы на единичную гиперсферу. В результате геометрическое расстояние становится эквивалентно углу между векторами, что позволяет заменить ресурсоемкий подсчет евклидовых дистанций на быстрое вычисление скалярного произведения (inner product). Это полностью решает проблему взрыва градиентов из-за масштаба векторов.

В качестве примера Бири демонстрирует фотографии бабочек и мотыльков (Lepidoptera). Человеку без профильного образования крайне сложно с ходу определить видовую принадлежность конкретной особи на изолированном снимке. Но если положить перед ним три фотографии, задача упрощается: любой легко укажет, какие два насекомых более похожи друг на друга, а какое является явным аутсайдером, даже не зная точных названий видов.

Этот когнитивный паттерн математически реализуется через триплетную функцию потерь (triplet loss). Архитектура принимает на вход три объекта одновременно:

Анкер (Anchor): Базовый опорный образец.
Позитивный пример (Positive): Другой объект, принадлежащий к тому же классу, что и анкер.
Негативный пример (Negative): Объект заведомо чужого класса.

Лосс жестко штрафует нейросеть, если расстояние между анкером и негативным примером в пространстве представлений не превышает расстояние между анкером и позитивным примером на заданную величину зазора (margin). Градиент заставляет веса меняться так, чтобы притягивать одинаковые сущности и отталкивать разные. Технически это реализуется в рамках триплетной сети (triplet network) со связанными весами, где все три изображения параллельно проходят через идентичные слои сверточной сети.

Для повышения эффективности вычислений современные алгоритмы не отправляют тройки изолированно. В память видеокарты загружается целый батч, внутри которого программно конструируются все возможные комбинации триплетов. Это максимизирует утилизацию данных и позволяет эффективно проводить майнинг тяжелых негативов (hard negative mining). Сара Бири подчеркивает: если скармливать модели «легкие» примеры, которые она и так успешно разделяет с запасом по margin, лосс будет равен нулю. Модель перестанет получать обучающий сигнал. Только сталкиваясь со сложными, пограничными ошибками, сеть генерирует качественный градиент, заставляющий ее перестраивать структуру скрытого пространства.

Эксперименты на орнитологическом датасете Caltech UCSD Birds наглядно демонстрируют, как триплетный лосс заставляет эмбеддинги группироваться в красивые кластеры по видам птиц. Однако лектор призывает к осторожности, демонстрируя скрытую уязвимость: один из обособленных кластеров объединил крачек (terns) не из-за их анатомических особенностей, а потому, что на всех этих снимках птицы были запечатлены строго в полете на фоне ярко-синего неба. Сеть посчитала цвет фона и позу ключевым признаком сходства. Проведенные под руководством соавтора курса Фила исследования показывают, что человеческий мозг оценивает схожесть многогранно: по перспективе, форме, цвету объекта, контексту окружения и количеству предметов в кадре. Какое именно измерение сходства окажется доминирующим в процессе обучения, напрямую зависит от характера данных и архитектуры лосса.

🔄 Самообучающееся контрастивное представление (Self-Supervised Learning) 30:43

Главная слабость классического метрического обучения — жесткая зависимость от ручной разметки классов. Концепция самообучающегося контрастивного представления (self-supervised contrastive learning) решает эту проблему, объединяя математику метрик с идеями автоматической генерации сигналов. Модель по-прежнему проецирует данные на гиперсферу, используя кросс-энтропию softmax-классификатора для дискриминации объектов на основе углового сходства. Задача — вытянуть скалярное произведение позитивных пар как можно ближе к единице (минимизируя угол между ними) и подавить его для всех негативных пар. Математическим выражением этой логики является контрастивная потеря InfoNCE (Noise Contrastive Estimation).

По мнению Сары Бири, такое самообучение без учителя способно в ряде практических сценариев превосходить классическое предобучение с учителем (supervised pretraining). Наличие жестких человеческих меток заставляет модель фокусироваться исключительно на тех признаках, которые важны для конкретной исторической разметки. В результате сеть намеренно «забывает» другие важные слои информации, которые могли бы критически пригодиться для новых downstream-задач. Пространство на гиперсфере выступает мощным регуляризатором (подобно логистической регрессии), стабилизирует процесс сходимости весов и гарантирует: в финале признаки распределятся так, что для выделения любой новой категории достаточно будет построить простейший линейный классификатор, разрезающий сферу плоскостью.

Поскольку человеческой разметки нет, генерация пар полностью автоматизирована:

Позитивные пары: Берутся два сильно измененных (аугментированных) представления одного и того же исходного изображения.
Негативные пары: В качестве контрастного фона выступают все остальные случайные изображения, попавшие в текущий батч.

В пионерском алгоритме SimCLR для каждого кадра налету создаются две независимые случайные аугментации. Набор деформаций умышленно делается агрессивным: случайное кадрирование с изменением масштаба (crop & resize), зеркальные перевороты (flip), цветовой джиттер (color jitter), случайное затирание кусков кадра (cutout), размытие по Гауссу и фильтрация Собеля для выделения контурных карт. Сеть заставляют понять, что исходный объект под любым экстремальным фильтром обязан сохранять близкие координаты, а все прочие объекты батча должны быть безжалостно отброшены в противоположные стороны гиперсферы.

Слушатели лекции справедливо указали на слабое место схемы: если в один батч случайно попадут две разные фотографии золотистых ретриверов, алгоритм посчитает вторую собаку негативным примером и начнет принудительно расталкивать их векторы. Бири соглашается с этим концептуальным противоречием, но объясняет, что в масштабах длительного обучения этот деструктивный вклад нивелируется законом больших чисел. Вероятность того, что в случайном батче ретривер окажется рядом с машиной, зданием или лодкой, статистически многократно превышает вероятность его встречи с другим ретривером, поэтому итоговый полезный сигнал успешно пробивается сквозь шум.

При этом выбор аугментаций — это ключевой этап внедрения априорных доменных знаний в модель. Разработчик должен четко понимать, к каким изменениям он хочет выработать инвариантность. Например, если модель обучается распознавать медицинские молекулы, текстовые блоки или видео (где позитивными парами служат соседние кадры одного ролика), наборы деформаций будут кардинально отличаться. Ошибка в выборе аугментации может разрушить семантику: если при обучении эмбеддингов для обувного магазина использовать зеркальный переворот (flip), модель сочтет правый и левый ботинок идентичными объектами, что полностью сделает ее непригодной для последующих задач сортировки и поиска. Те же принципы справедливы для современных мультимодальных систем (например, CLIP), где в качестве двух разных «взглядов» (views) на один объект выступают его изображение и текстовое описание.

🔬 Математика потерь: выравнивание (Alignment) и равномерность (Uniformity) 43:30

Эффективность контрастивных систем базируется на тонком балансе двух сущностей: математической структуре лосса и стратегии формирования батча. Формально минимизацию InfoNCE принято мотивировать через максимизацию нижней границы взаимной информации (mutual information) между позитивными парами. Однако Бири ссылается на важное теоретическое исследование, доказавшее парадоксальный факт: прямая и жесткая максимизация взаимной информации в чистом виде ухудшает качество финальных векторов, в то время как более «рыхлые» и слабые математические границы в сочетании с простыми критиками показывают великолепный результат на тестах. Это означает, что реальная механика контрастивных потерь скрывает под собой иные геометрические процессы.

Как оказалось, функция потерь одновременно оптимизирует две независимые метрики — выравнивание (alignment) и равномерность (uniformity).

Выравнивание (Alignment): Свойство, требующее, чтобы позитивные пары находились как можно ближе. Метрика считается как математическое ожидание расстояния между признаками похожих объектов. Показатель достигает идеального минимума, когда векторы позитивных аугментаций полностью коллапсируют в единую точку пространства.
Равномерность (Uniformity): Свойство, заставляющее эмбеддинги не связанных между собой объектов максимально эффективно занимать доступную площадь гиперсферы, не сбиваясь в одну кучу. Чтобы оценивать этот баланс без явного перебора всех пар, математики используют логарифм ожидаемого pairwise-потенциала Гаусса ($e^{-||f(x)-f(y)||^2}$), который экспоненциально штрафует систему за появление избыточно близких векторов среди негативных примеров. Оптимальным решением данного уравнения является строго равномерное распределение точек по сфере, максимизирующее энтропию пространства.

При асимптотическом анализе (когда число негативных примеров стремится к бесконечности) контрастивный лосс распадается на сумму этих двух компонент. Эксперименты на CIFAR-10 наглядно подтверждают теорию: при использовании self-supervised контрастивного подхода эмбеддинги валидационной выборки распределяются по окружности безупречно ровным слоем. Напротив, классическое обучение с учителем или случайная инициализация весов дают рваные, скученные и далекие от равномерности распределения. Что самое важное, эмпирически доказано: модели, демонстрирующие наивысшую точность (validation accuracy) на downstream-тестах, на графиках строго соответствуют точкам максимальной симультанной минимизации как показателей выравнивания, так и показателей равномерности.

🧪 Ключевые компоненты успеха и практические трюки 51:53

Практическая эволюция self-supervised подходов доказала, что высокая робастность и сходимость моделей опираются на четыре обязательных технических компонента:

Экстремально тяжелые аугментации: В статье SimCLR авторы провели абляционные исследования (ablations) и выяснили: если убрать из пайплайна цветовой джиттер и размытие, оставив только кадрирование (crops), итоговая точность downstream-классификатора рухнет сразу на 15%. Простые пертурбации не позволяют сети выучить инвариантность к базовым факторам среды.
Проекционная голова (Projection Head): Экспериментаторы обнаружили важный трюк: контрастивный лосс нельзя считать прямо на целевом пространстве представлений $h$, которое планируется использовать в будущем. Вместо этого вектор пропускают через промежуточный слой $z = g(h)$ — простую линейную проекцию или компактный двухслойный перцептрон (MLP). Контрастивная ошибка вычисляется для пространства $z$. После завершения обучения голова $g$ полностью отбрасывается, а для всех прикладных задач извлекается сырой вектор $h$. Бири объясняет логику процесса: контрастивный лосс слишком агрессивно выжигает информацию, требуя от аугментированных векторов полного совпадения. Проекционная голова принимает этот удар на себя, позволяя пространству $h$ сохранить тонкую вариативность данных. Лектор находит здесь прямую архитектурную аналогию с разделением проекций ключей, запросов и значений в трансформерах.
Гигантские размеры батчей: Поскольку SimCLR черпает негативные примеры прямо из текущей итерации, качество оценки свойства равномерности напрямую зависит от объема батча. Разница в точности между батчем на 256 объектов и батчем на 8192 объекта в начале обучения составляет колоссальные 10%. Бири с иронией замечает, что именно эта математическая потребность заставляет индустрию скупать GPU, а компанию NVIDIA — выпускать ускорители с беспрецедентными объемами памяти. Проблему дороговизны таких вычислений пытаются решать альтернативные архитектуры: например, MoCo изолирует размер батча от числа негативов с помощью механизма динамической очереди векторов (memory bank).
Удаление ложных негативов: Если исследователям доступна хотя бы частичная или слабая разметка, принудительное исключение из батча объектов, принадлежащих к тому же классу, что и анкер, обеспечивает мощный прирост Top-1 точности на финальных тестах.

Это наблюдение подтолкнуло индустрию к развитию гибридных подходов — контролируемого (supervised) и частично контролируемого (semi-supervised) контрастивного обучения. В них метки классов используются для умышленного объединения разных изображений одного класса в позитивные пары, что дает куда более стабильную и геометрически выверенную структуру эмбеддингов, нежели классическая кросс-энтропия.

🦅 Практический кейс: Анализ датасета iNaturalist 2021 1:01:25

В финальной части лекции Сара Бири переходит от теории к детальному разбору практического кейса на базе масштабного биологического датасета iNaturalist 2021. Этот массив данных включает в себя 2,7 миллиона обучающих изображений, 50 тысяч валидационных и 500 тысяч тестовых снимков, охватывающих 10 000 уникальных видов дикой природы, растений, насекомых и животных.

Уникальность датасета заключается в его строгой иерархической структуре, повторяющей реальное биологическое таксономическое дерево. В самом центре графа находятся максимально грубые (coarse-grained) разделения — например, разница между царством животных (Animalia) и царством растений (Plantae). По мере движения к периферии графа визуальное сходство между категориями нарастает. На самом краю располагаются экстремально близкие (fine-grained) классы — разные виды внутри одного биологического рода, различить которые не всегда способен даже тренированный человек (как в случае с мотыльками Lepidoptera).

Команда исследователей под руководством Илайджи Коула (Elijah Cole) провела масштабный эксперимент: они обучили на данных iNaturalist классическую supervised-модель с нуля, а также две популярные self-supervised контрастивные архитектуры — SimCLR и MoCo. Качество полученных пространств представлений оценивалось методом линейного зондирования (linear probe): веса базовых сетей намертво замораживались, а поверх эмбеддингов обучался простейший линейный классификатор с учителем. Обучение зонда происходило на самом глубоком, видовом уровне, а затем результаты тестирования просто математически агрегировались вверх по таксономическому дереву (к роду, семейству, классу и царству).

Результаты тестирования вскрыли фундаментальную проблему современных self-supervised систем:

На самом тонком, видовом уровне классическая supervised-модель опередила контрастивные алгоритмы на колоссальные 30% по точности.
Для сравнения, при аналогичном тестировании на датасете ImageNet разрыв между обучением с учителем и самообучением составил всего около 7%.

Бири объясняет этот феномен природой самих бенчмарков. Датасет ImageNet по своей сути является очень грубым (coarse-grained): его базовые категории визуально сильно отличаются друг от друга. Если посмотреть на поведение графиков iNaturalist на верхних уровнях таксономии (тип, класс, царство), разрыв между supervised и контрастивными методами точно так же стремительно схлопывается до минимума. Контрастивное самообучение отлично улавливает верхнеуровневые различия, но пасует перед микродеталями.

Причину провала наглядно продемонстрировал качественный анализ поисковых запросов (retrieval) методом ближайших соседей. Модели подавали на вход тестовый снимок птицы. Модель, обученная с учителем, в качестве ближайших векторов вернула птиц того же вида или, в крайнем случае, представителей того же биологического рода.

Однако модель SimCLR не смогла вернуть ни одной птицы аналогичного вида. Вместо этого пространство эмбеддингов выдало подборку фотографий, на которых были запечатлены совершенно разные птицы, но у всех них была одна общая черта: их держал в руках человек.

Этот пример обнажает главную ловушку самообучения. Математически алгоритм отработал безупречно: на основе заложенных тяжелых аугментаций сеть честно выстроила инвариантность к шумам и сгруппировала объекты по самому мощному, доминирующему визуальному признаку в батче — контексту человеческих рук. Однако это контекстуальное сходство оказалось абсолютно ортогонально и вредно для истинной downstream-задачи — биологической классификации видов. По словам Сары Бири, если ваш self-supervised сигнал и логика подбора аугментаций не согласуются с финальной прикладной целью, контрастивный лосс гарантированно обеспечит равномерность пространства, но это будет совершенно «не та равномерность и не то сходство», на которые рассчитывал разработчик.

Тем не менее, лектор резюмирует, что контрастивные метрические пространства обладают абсолютным, непревзойденным преимуществом в специфическом классе задач — поиске объектов в открытом множестве (open-set clustering) и индивидуальной идентификации (re-identification). Ярким примером служат системы распознавания лиц (вроде CelebA) или отслеживание конкретных особей животных в дикой природе.

Если классическаяsupervised-модель с кросс-энтропией жестко завязана на фиксированное число классов из обучения и полностью пасует при встрече с незнакомым человеком, то контрастивно обученное метрическое пространство оперирует чистой геометрией. Ему не важно, видела ли модель этого индивида ранее: оценивая взаимное расположение векторов, алгоритм с высокой точностью определит, принадлежат ли два абсолютно новых кадра одному и тому же лицу или перед ним разные люди. Построение умных пространств на основе гибкого баланса сходств и различий остается одним из самых перспективных векторов развития ИИ.