Ян Лекун и Рэндалл Балестриеро: «Обучение с подкреплением неэффективно»

Будущее обучения без учителя: Ян Лекун и Рэндалл Балестриеро о теории, данных и архитектуре ИИ 0:39

Научное сообщество находится в процессе переосмысления того, как нейронные сети «понимают» мир без необходимости в огромных массивах размеченных человеком данных. В центре этой дискуссии на конференции NeurIPS 2022 оказались эксперт в области ИИ Ян Лекун (Yann LeCun) и исследователь Рэндалл Балестриеро (Randall Balestriero). Их совместная работа и теоретические изыскания проливают свет на механизмы самообучения (Self-Supervised Learning, SSL), роль аугментации данных и будущее автономных интеллектуальных систем.

🧠 Спектральная теория и единство методов обучения 3:19

Одной из ключевых тем обсуждения стал теоретический анализ того, почему и как работают методы обучения без учителя. Рэндалл Балестриеро представил фундаментальный взгляд на SSL как на задачу построения «графа подобия».

Суть подхода: При использовании SSL с аугментацией данных мы берем множество обучающих примеров, искажаем их и рассматриваем эти искаженные версии как идентичные, а разные примеры — как различные.
Спектральные свойства: По мнению Балестриеро, решающее значение имеют не сами данные, а спектральные свойства матрицы подобия (adjacency matrix), построенной на этих связях.
Связь с обучением: Балестриеро утверждает, что суррогатная задача (например, искажение изображений) помогает решать итоговую задачу ровно в той степени, в которой собственные векторы (eigenvectors) матриц этих задач совпадают.

Лекун отметил, что этот подход позволяет объединить в единой теоретической рамке supervised learning (обучение с учителем) и SSL, рассматривая их как вариации одной и той же задачи проектирования графа связей между точками данных.

📉 Контрастивное vs. неконтрастивное обучение 8:08

Долгие годы в сообществе существовала дискуссия о преимуществах различных подходов к SSL. Контрастивные методы (такие как SimCLR) стремятся сделать представления для разных примеров в пакете максимально отличными друг от друга, чтобы избежать коллапса модели.

Лекун, который является сторонником неконтрастивных методов, ранее описывал их как способ «упаковки» (shrink-wrapping) латентного пространства вокруг данных. Однако в ходе беседы ученые согласились, что между этими методами существует математическая двойственность:

Контрастивные методы оперируют матрицей $Z Z^T$.
Неконтрастивные методы оперируют матрицей $Z^T Z$.

По словам Балестриеро, выбор между ними зависит от специфики задачи, и существуют режимы, где оба метода приводят к идентичным представлениям. Лекун добавил, что всё еще относится к контрастивным методам с долей скепсиса, так как количество необходимых негативных пар экспоненциально растет с увеличением размерности пространства.

⚖️ Проблема вознаграждения и будущее автономного ИИ 11:38

Обсуждая текущие тренды, Лекун подверг критике тезис «вознаграждение — это всё» (reward is enough), часто обсуждаемый в контексте обучения с подкреплением (RL).

Неэффективность RL: По мнению Лекуна, обучение с подкреплением крайне неэффективно, так как оно требует многократного совершения действий для оценки градиента.
Планирование как альтернатива: Лекун убежден, что там, где это возможно, следует использовать методы оптимального управления (optimal control) или прогнозирующее управление моделями (model predictive control), которые являются более эффективными.
Контролируемость: Использование диффренцируемых суррогатных функций стоимости вместо RL позволило бы сделать модели более предсказуемыми и управляемыми.

Балестриеро поддержал идею о том, что проектирование интеллектуальных систем должно стремиться к минимизации использования классического обучения с подкреплением.

🔍 Анализ аугментации данных: от интуиции к формулам 28:52

В завершение Балестриеро представил результаты исследования влияния аугментации данных на параметры модели. До сих пор это направление часто основывалось на эмпирических экспериментах, но работа Балестриеро предлагает аналитическое решение в замкнутой форме.

Математический подход: Исследователи рассматривают аугментацию как оператор, действующий на изображение, что позволяет вычислять ожидаемое изображение и вариативность.
Практическая польза: Такой анализ помогает понять, почему модели начинают фокусироваться на текстурах или границах объектов, и позволяет давать рекомендации практикам, какие именно методы аугментации лучше использовать для конкретных датасетов.