# Хьюго Ларошель о мобилизации нейронных знаний: почему fine-tuning — это «хак»

Источник: https://www.youtube.com/watch?v=c--acLK_C9s
Канал: The TWIML AI Podcast
Опубликовано: 29.05.2023

---

В мире современного машинного обучения методы переноса знаний (transfer learning) стали фактическим стандартом. Однако до сих пор большинство специалистов ограничиваются лишь простейшими их формами. Хьюго Ларошель, научный сотрудник Google DeepMind и содиректор программы CIFAR по обучению в машинах и мозге, в подкасте TWIML AI развенчивает мифы о «единственно верном» способе дообучения моделей и предлагает новые архитектурные решения.

## 🧠 Эволюция трансферного обучения: от инициализации к мобилизации знаний
[[JUMP:04:53]]

Хьюго Ларошель предлагает рассматривать процесс машинного обучения через метафору приобретения и использования знаний. Он выделяет две ключевые фазы:

1.  **Приобретение нейронных знаний (Neural Knowledge Acquisition):** это этап предварительного обучения (pre-training) огромных моделей на колоссальных массивах данных. По словам Ларошеля, знания здесь не являются эксплицитными (в виде фактов), они заложены в весах нейронной сети в неявной форме [06:38].
2.  **Мобилизация нейронных знаний (Neural Knowledge Mobilization):** это этап адаптации модели к конкретной задаче пользователя. Ларошель подчеркивает, что именно эта фаза сейчас наиболее интересна для исследований, так как первая фаза требует вычислительных мощностей, доступных лишь немногим корпорациям [07:19].

Традиционно в индустрии доминирует метод **fine-tuning** (тонкая настройка). Ларошель считает его своего рода «хаком», закрепившимся в практике еще с 2006 года после работ Джеффри Хинтона по глубоким сетям доверия (Deep Belief Networks) [09:32]. В то время предобучение рассматривалось скорее как способ хорошей инициализации весов, а не как полноценный перенос знаний. Основной недостаток fine-tuning сегодня — необходимость хранить полную копию весов модели для каждой отдельной задачи, что крайне неэффективно при масштабировании [08:53].

## 🏗️ Альтернативные методы: шаблоны и «зонды»
[[JUMP:12:11]]

Команда Ларошеля в Google DeepMind разрабатывает методы, которые позволяют извлекать информацию из моделей без полного обновления их параметров.

### Использование параметров Batch Normalization
Вместе с исследователем Элени Трианафиллу Ларошель изучил концепцию «шаблона» (template). В этой схеме веса предобученной модели остаются неизменными, а для новой задачи адаптируются только параметры пакетной нормализации (batch norm parameters) — смещения и масштабирование [13:41].

*   **Преимущество:** можно поддерживать тысячи задач, сохраняя в памяти лишь крошечные наборы специфических параметров для каждой [14:08].
*   **Недостаток:** для обучения этих параметров всё равно требуется полный цикл прямого и обратного прохода через огромную основную сеть, что стоит дорого в плане вычислений [13:56].

### Метод Head-to-Toe (H2T)
Более продвинутый подход, предложенный Утку Эвджи, получил название Head-to-Toe. Основная идея в том, что нужная для новой задачи информация не всегда находится на самом «выходе» сети. Тонкая настройка часто просто «вытягивает» эти скрытые признаки на поверхность [15:17].

*   **Механизм:** вместо fine-tuning исследователи используют «линейные зонды» (linear probes), имеющие доступ ко всем слоям сети одновременно через Skip-connections [15:43].
*   **Разреженность:** чтобы не утонуть в объеме данных, используется разреженная классификация. Система сама выбирает, из каких именно слоев (второго, десятого или последнего) брать признаки для конкретной задачи [15:57].
*   **Результат:** метод H2T позволяет достичь производительности fine-tuning, затрачивая менее 10% вычислительных ресурсов (FLOPs) [16:35].

Исследования показали интересную закономерность: чем сильнее новая задача отличается от оригинальной (например, переход от классификации животных на ImageNet к медицинским снимкам), тем более полезными становятся ранние слои нейросети, работающие как детекторы простых геометрических форм [20:48].

## 👨‍💻 Революция в кодинге: LLM и контекстная адаптация
[[JUMP:24:20]]

В области обработки естественного языка (NLP) трансферное обучение эволюционировало в сторону промптинга (prompting). Хьюго Ларошель вместе с Дэнни Тарло исследовал, как большие языковые модели (LLM), такие как Codex, могут помогать программистам.

В статье, представленной на ICML, команда изучила возможность использования контекста из всего репозитория, а не только из текущего открытого файла [27:15].

*   **Проблема:** стандартные модели «видят» только токены, идущие непосредственно перед курсором.
*   **Эксперимент:** исследователи «подсовывали» модели определения функций, переменные и фрагменты кода из других директорий проекта [31:13].
*   **Удивительное открытие:** Ларошель ожидал, что модель запутается, так как эти куски кода в промпте выглядели как несвязная «каша», которая не скомпилируется [33:27]. Однако LLM проявили поразительную робастность — они успешно извлекали пользу из этих разрозненных фрагментов без каких-либо специальных пометок вроде комментариев [35:41].

## 🌍 Машинное обучение на службе экологии
[[JUMP:37:02]]

Несмотря на ажиотаж вокруг чат-ботов, Ларошель сознательно избегает перенасыщенных тем. Его новый приоритет — дистанционное зондирование и экологические проблемы [37:16].

Его студентка Милизан Танг получила награду на воркшопе ICLR за проект, объединяющий данные спутниковых снимков и платформы eBird. Модель предсказывает вероятность появления различных видов животных и растений в конкретной локации на основе визуальных данных из космоса [37:57]. По мнению Ларошеля, это критически важная область для трансферного обучения, так как в экологии данные распределены крайне неравномерно: в одних регионах мира наблюдений много, в других — почти нет [38:22].

## 📜 Эксперимент TMLR: новый взгляд на научные публикации
[[JUMP:38:59]]

Помимо научной работы, Хьюго Ларошель является одним из главных редакторов журнала **TMLR** (Transactions on Machine Learning Research). Этот проект призван исправить недостатки конференционной системы в AI (таких как NeurIPS или ICML).

Основные принципы TMLR:

1.  **Отсутствие дедлайнов:** авторы подают работы, когда они готовы, что снижает стресс и нагрузку на вычислительные кластеры в «ночи перед дедлайном» [40:48].
2.  **Критерий оценки — корректность, а не «хайп»:** рецензенты оценивают только то, подтверждены ли заявления авторов доказательствами. Субъективная «значимость» и «интересность» вынесены в отдельную систему сертификации [41:39].
3.  **Открытое рецензирование:** весь процесс общения с рецензентами публичен [41:13].

Спустя год работы журнал получает около 1000 заявок в год. Ларошель видит будущее научной системы в том, чтобы конференции перестали быть «фильтрами корректности» и стали площадками для демонстрации уже проверенных журналом работ [42:47].