Хьюго Ларошель о мобилизации нейронных знаний: почему fine-tuning — это «хак»

В мире современного машинного обучения методы переноса знаний (transfer learning) стали фактическим стандартом. Однако до сих пор большинство специалистов ограничиваются лишь простейшими их формами. Хьюго Ларошель, научный сотрудник Google DeepMind и содиректор программы CIFAR по обучению в машинах и мозге, в подкасте TWIML AI развенчивает мифы о «единственно верном» способе дообучения моделей и предлагает новые архитектурные решения.

🧠 Эволюция трансферного обучения: от инициализации к мобилизации знаний 4:53

Хьюго Ларошель предлагает рассматривать процесс машинного обучения через метафору приобретения и использования знаний. Он выделяет две ключевые фазы:

Приобретение нейронных знаний (Neural Knowledge Acquisition): это этап предварительного обучения (pre-training) огромных моделей на колоссальных массивах данных. По словам Ларошеля, знания здесь не являются эксплицитными (в виде фактов), они заложены в весах нейронной сети в неявной форме .
Мобилизация нейронных знаний (Neural Knowledge Mobilization): это этап адаптации модели к конкретной задаче пользователя. Ларошель подчеркивает, что именно эта фаза сейчас наиболее интересна для исследований, так как первая фаза требует вычислительных мощностей, доступных лишь немногим корпорациям .

Традиционно в индустрии доминирует метод fine-tuning (тонкая настройка). Ларошель считает его своего рода «хаком», закрепившимся в практике еще с 2006 года после работ Джеффри Хинтона по глубоким сетям доверия (Deep Belief Networks) . В то время предобучение рассматривалось скорее как способ хорошей инициализации весов, а не как полноценный перенос знаний. Основной недостаток fine-tuning сегодня — необходимость хранить полную копию весов модели для каждой отдельной задачи, что крайне неэффективно при масштабировании .

🏗️ Альтернативные методы: шаблоны и «зонды» 12:11

Команда Ларошеля в Google DeepMind разрабатывает методы, которые позволяют извлекать информацию из моделей без полного обновления их параметров.

Использование параметров Batch Normalization

Вместе с исследователем Элени Трианафиллу Ларошель изучил концепцию «шаблона» (template). В этой схеме веса предобученной модели остаются неизменными, а для новой задачи адаптируются только параметры пакетной нормализации (batch norm parameters) — смещения и масштабирование .

Преимущество: можно поддерживать тысячи задач, сохраняя в памяти лишь крошечные наборы специфических параметров для каждой .
Недостаток: для обучения этих параметров всё равно требуется полный цикл прямого и обратного прохода через огромную основную сеть, что стоит дорого в плане вычислений .

Метод Head-to-Toe (H2T)

Более продвинутый подход, предложенный Утку Эвджи, получил название Head-to-Toe. Основная идея в том, что нужная для новой задачи информация не всегда находится на самом «выходе» сети. Тонкая настройка часто просто «вытягивает» эти скрытые признаки на поверхность .

Механизм: вместо fine-tuning исследователи используют «линейные зонды» (linear probes), имеющие доступ ко всем слоям сети одновременно через Skip-connections .
Разреженность: чтобы не утонуть в объеме данных, используется разреженная классификация. Система сама выбирает, из каких именно слоев (второго, десятого или последнего) брать признаки для конкретной задачи .
Результат: метод H2T позволяет достичь производительности fine-tuning, затрачивая менее 10% вычислительных ресурсов (FLOPs) .

Исследования показали интересную закономерность: чем сильнее новая задача отличается от оригинальной (например, переход от классификации животных на ImageNet к медицинским снимкам), тем более полезными становятся ранние слои нейросети, работающие как детекторы простых геометрических форм .

👨‍💻 Революция в кодинге: LLM и контекстная адаптация 24:20

В области обработки естественного языка (NLP) трансферное обучение эволюционировало в сторону промптинга (prompting). Хьюго Ларошель вместе с Дэнни Тарло исследовал, как большие языковые модели (LLM), такие как Codex, могут помогать программистам.

В статье, представленной на ICML, команда изучила возможность использования контекста из всего репозитория, а не только из текущего открытого файла .

Проблема: стандартные модели «видят» только токены, идущие непосредственно перед курсором.
Эксперимент: исследователи «подсовывали» модели определения функций, переменные и фрагменты кода из других директорий проекта .
Удивительное открытие: Ларошель ожидал, что модель запутается, так как эти куски кода в промпте выглядели как несвязная «каша», которая не скомпилируется . Однако LLM проявили поразительную робастность — они успешно извлекали пользу из этих разрозненных фрагментов без каких-либо специальных пометок вроде комментариев .

🌍 Машинное обучение на службе экологии 37:02

Несмотря на ажиотаж вокруг чат-ботов, Ларошель сознательно избегает перенасыщенных тем. Его новый приоритет — дистанционное зондирование и экологические проблемы .

Его студентка Милизан Танг получила награду на воркшопе ICLR за проект, объединяющий данные спутниковых снимков и платформы eBird. Модель предсказывает вероятность появления различных видов животных и растений в конкретной локации на основе визуальных данных из космоса . По мнению Ларошеля, это критически важная область для трансферного обучения, так как в экологии данные распределены крайне неравномерно: в одних регионах мира наблюдений много, в других — почти нет .

📜 Эксперимент TMLR: новый взгляд на научные публикации 38:59

Помимо научной работы, Хьюго Ларошель является одним из главных редакторов журнала TMLR (Transactions on Machine Learning Research). Этот проект призван исправить недостатки конференционной системы в AI (таких как NeurIPS или ICML).

Основные принципы TMLR:

Отсутствие дедлайнов: авторы подают работы, когда они готовы, что снижает стресс и нагрузку на вычислительные кластеры в «ночи перед дедлайном» .
Критерий оценки — корректность, а не «хайп»: рецензенты оценивают только то, подтверждены ли заявления авторов доказательствами. Субъективная «значимость» и «интересность» вынесены в отдельную систему сертификации .
Открытое рецензирование: весь процесс общения с рецензентами публичен .

Спустя год работы журнал получает около 1000 заявок в год. Ларошель видит будущее научной системы в том, чтобы конференции перестали быть «фильтрами корректности» и стали площадками для демонстрации уже проверенных журналом работ .