# Ян Лекун и Рэндалл Балестриеро: «Обучение с подкреплением неэффективно»

Источник: https://www.youtube.com/watch?v=9dLd6n9yT8U
Канал: Machine Learning Street Talk
Опубликовано: 11.12.2022

---

## Будущее обучения без учителя: Ян Лекун и Рэндалл Балестриеро о теории, данных и архитектуре ИИ
[[JUMP:0:39]]

Научное сообщество находится в процессе переосмысления того, как нейронные сети «понимают» мир без необходимости в огромных массивах размеченных человеком данных. В центре этой дискуссии на конференции NeurIPS 2022 оказались эксперт в области ИИ Ян Лекун (Yann LeCun) и исследователь Рэндалл Балестриеро (Randall Balestriero). Их совместная работа и теоретические изыскания проливают свет на механизмы самообучения (Self-Supervised Learning, SSL), роль аугментации данных и будущее автономных интеллектуальных систем.

### 🧠 Спектральная теория и единство методов обучения
[[JUMP:3:19]]

Одной из ключевых тем обсуждения стал теоретический анализ того, почему и как работают методы обучения без учителя. Рэндалл Балестриеро представил фундаментальный взгляд на SSL как на задачу построения «графа подобия».

*   **Суть подхода:** При использовании SSL с аугментацией данных мы берем множество обучающих примеров, искажаем их и рассматриваем эти искаженные версии как идентичные, а разные примеры — как различные.
*   **Спектральные свойства:** По мнению Балестриеро, решающее значение имеют не сами данные, а спектральные свойства матрицы подобия (adjacency matrix), построенной на этих связях.
*   **Связь с обучением:** Балестриеро утверждает, что суррогатная задача (например, искажение изображений) помогает решать итоговую задачу ровно в той степени, в которой собственные векторы (eigenvectors) матриц этих задач совпадают.

Лекун отметил, что этот подход позволяет объединить в единой теоретической рамке supervised learning (обучение с учителем) и SSL, рассматривая их как вариации одной и той же задачи проектирования графа связей между точками данных.

### 📉 Контрастивное vs. неконтрастивное обучение
[[JUMP:8:08]]

Долгие годы в сообществе существовала дискуссия о преимуществах различных подходов к SSL. Контрастивные методы (такие как SimCLR) стремятся сделать представления для разных примеров в пакете максимально отличными друг от друга, чтобы избежать коллапса модели.

Лекун, который является сторонником неконтрастивных методов, ранее описывал их как способ «упаковки» (shrink-wrapping) латентного пространства вокруг данных. Однако в ходе беседы ученые согласились, что между этими методами существует математическая двойственность:

1.  Контрастивные методы оперируют матрицей $Z Z^T$.
2.  Неконтрастивные методы оперируют матрицей $Z^T Z$.

По словам Балестриеро, выбор между ними зависит от специфики задачи, и существуют режимы, где оба метода приводят к идентичным представлениям. Лекун добавил, что всё еще относится к контрастивным методам с долей скепсиса, так как количество необходимых негативных пар экспоненциально растет с увеличением размерности пространства.

### ⚖️ Проблема вознаграждения и будущее автономного ИИ
[[JUMP:11:38]]

Обсуждая текущие тренды, Лекун подверг критике тезис «вознаграждение — это всё» (reward is enough), часто обсуждаемый в контексте обучения с подкреплением (RL).

*   **Неэффективность RL:** По мнению Лекуна, обучение с подкреплением крайне неэффективно, так как оно требует многократного совершения действий для оценки градиента.
*   **Планирование как альтернатива:** Лекун убежден, что там, где это возможно, следует использовать методы оптимального управления (optimal control) или прогнозирующее управление моделями (model predictive control), которые являются более эффективными.
*   **Контролируемость:** Использование диффренцируемых суррогатных функций стоимости вместо RL позволило бы сделать модели более предсказуемыми и управляемыми.

Балестриеро поддержал идею о том, что проектирование интеллектуальных систем должно стремиться к минимизации использования классического обучения с подкреплением.

### 🔍 Анализ аугментации данных: от интуиции к формулам
[[JUMP:28:52]]

В завершение Балестриеро представил результаты исследования влияния аугментации данных на параметры модели. До сих пор это направление часто основывалось на эмпирических экспериментах, но работа Балестриеро предлагает аналитическое решение в замкнутой форме.

*   **Математический подход:** Исследователи рассматривают аугментацию как оператор, действующий на изображение, что позволяет вычислять ожидаемое изображение и вариативность.
*   **Практическая польза:** Такой анализ помогает понять, почему модели начинают фокусироваться на текстурах или границах объектов, и позволяет давать рекомендации практикам, какие именно методы аугментации лучше использовать для конкретных датасетов.