Ян Лекун и Рэндалл Балестриеро: «Обучение с подкреплением неэффективно»

Machine Learning Street Talk 20,8 тыс. 30 мин 3 мин 11.12.2022
Главное

Будущее обучения без учителя: Ян Лекун и Рэндалл Балестриеро о теории, данных и архитектуре ИИ 0:39

Научное сообщество находится в процессе переосмысления того, как нейронные сети «понимают» мир без необходимости в огромных массивах размеченных человеком данных. В центре этой дискуссии на конференции NeurIPS 2022 оказались эксперт в области ИИ Ян Лекун (Yann LeCun) и исследователь Рэндалл Балестриеро (Randall Balestriero). Их совместная работа и теоретические изыскания проливают свет на механизмы самообучения (Self-Supervised Learning, SSL), роль аугментации данных и будущее автономных интеллектуальных систем.

🧠 Спектральная теория и единство методов обучения 3:19

Одной из ключевых тем обсуждения стал теоретический анализ того, почему и как работают методы обучения без учителя. Рэндалл Балестриеро представил фундаментальный взгляд на SSL как на задачу построения «графа подобия».

Лекун отметил, что этот подход позволяет объединить в единой теоретической рамке supervised learning (обучение с учителем) и SSL, рассматривая их как вариации одной и той же задачи проектирования графа связей между точками данных.

📉 Контрастивное vs. неконтрастивное обучение 8:08

Долгие годы в сообществе существовала дискуссия о преимуществах различных подходов к SSL. Контрастивные методы (такие как SimCLR) стремятся сделать представления для разных примеров в пакете максимально отличными друг от друга, чтобы избежать коллапса модели.

Лекун, который является сторонником неконтрастивных методов, ранее описывал их как способ «упаковки» (shrink-wrapping) латентного пространства вокруг данных. Однако в ходе беседы ученые согласились, что между этими методами существует математическая двойственность:

  1. Контрастивные методы оперируют матрицей $Z Z^T$.
  2. Неконтрастивные методы оперируют матрицей $Z^T Z$.

По словам Балестриеро, выбор между ними зависит от специфики задачи, и существуют режимы, где оба метода приводят к идентичным представлениям. Лекун добавил, что всё еще относится к контрастивным методам с долей скепсиса, так как количество необходимых негативных пар экспоненциально растет с увеличением размерности пространства.

⚖️ Проблема вознаграждения и будущее автономного ИИ 11:38

Обсуждая текущие тренды, Лекун подверг критике тезис «вознаграждение — это всё» (reward is enough), часто обсуждаемый в контексте обучения с подкреплением (RL).

Балестриеро поддержал идею о том, что проектирование интеллектуальных систем должно стремиться к минимизации использования классического обучения с подкреплением.

🔍 Анализ аугментации данных: от интуиции к формулам 28:52

В завершение Балестриеро представил результаты исследования влияния аугментации данных на параметры модели. До сих пор это направление часто основывалось на эмпирических экспериментах, но работа Балестриеро предлагает аналитическое решение в замкнутой форме.

💬 Цитаты

«Цель исследований в области RL должна состоять в том, чтобы минимизировать его использование.»

«Главная задача SSL — правильно спроектировать граф отношений между данными.»

Рэндалл Балестриеро 20:03
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
SSL (Self-Supervised Learning)
Метод обучения моделей, при котором система обучается на неразмеченных данных, создавая для себя суррогатные задачи.
Аугментация данных
Процесс искусственного увеличения объема обучающей выборки путем трансформаций (повороты, искажения, изменение цвета) исходных данных.
Спектральные свойства матрицы
Характеристики матрицы, описываемые через ее собственные значения и векторы, которые раскрывают скрытую структуру данных.
Контрастивное обучение
Подход, в котором модель учится сближать представления похожих примеров и отдалять представления непохожих.
Коллапс представления
Ситуация, при которой нейросеть начинает выдавать одинаковые или почти одинаковые представления для всех входных данных, теряя полезную информацию.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yann LeCun Randall Balestriero Self-Supervised Learning NeurIPS Machine Learning Street Talk