Янник Кильчер о прогрессивном расширении блоков в LLaMA Pro

LLaMA Pro: масштабирование знаний без «забывания» прошлого 0:00

Исследователи представили новый метод дообучения больших языковых моделей (LLM) — LLaMA Pro, позволяющий расширять функциональность модели, не принося в жертву уже полученные ранее знания. Основная идея работы заключается в использовании прогрессивного расширения блоков (block expansion), что решает проблему катастрофического забывания (catastrophic forgetting) при обучении новым навыкам. По мнению ведущего и ИИ-исследователя Янника Кильчера (Yannic Kilcher), предложенная методика представляет собой интересный подход к «пост-претрейнингу» (post pre-training), хотя и вызывает ряд вопросов относительно его универсальности.

Проблема «забывания» и метод расширения 3:46

Традиционно при дообучении моделей на новых данных, например, для узкоспециализированных задач вроде программирования или математики, модель часто теряет навыки в общих областях. Авторы исследования предлагают архитектурное решение:

Копирование блоков: В структуру исходной LLaMA 2 (модель 7B) вставляются дополнительные копии существующих трансформерных слоев.
Инициализация нулем: Чтобы сохранить исходное поведение сети сразу после расширения, веса новых слоев инициализируются таким образом, что их выходной сигнал равен нулю (фактически превращая их в операцию идентичности).
Заморозка параметров: При последующем дообучении на новых данных (коде и математике) старые веса остаются замороженными, а обучаются только добавленные блоки.

По словам Кильчера, такой подход позволяет эффективно наращивать вычислительную мощность модели, при этом «направляя» новые блоки на изучение целевых доменов.

Нюансы реализации и критика 12:55

Несмотря на эффективность, описанную в статье, Янник Кильчер отмечает несколько неоднозначных моментов:

Вычислительные затраты: Обучение проводилось на 16 графических процессорах Nvidia H800 (автор предполагает, что речь об H100) в течение 7 дней, что требует значительных ресурсов. Это нельзя назвать «легким» дообучением в домашних условиях, хотя это и дешевле полного претрейнинга.
Вопрос переобучения: Скепсис исследователя вызывает тот факт, что модель обучается только на новых данных без смешивания с исходным корпусом. Кильчер полагает, что метод работает успешно лишь до тех пор, пока новые данные имеют значительное пересечение с областью знаний претрейнинга, как в случае с кодом и математикой.
Математическая строгость: Описанная в статье стратегия выбора слоев для копирования выглядит несколько запутанной и не всегда четко определена в параметрах, хотя сам механизм «копирование-заморозка-обучение» в итоге оказывается достаточно простым и работоспособным.

Выводы исследования 28:43

Результаты показывают, что LLaMA Pro успешно осваивает программирование и математические задачи, сохраняя при этом производительность в общих языковых бенчмарках. Янник Кильчер заключает, что, хотя предложенная математическая база метода иногда кажется избыточной или спорной, эмпирические доказательства подтверждают успех данной «рецептуры». В будущем модель может стать полезным инструментом для тех, кто хочет адаптировать существующие LLM, не создавая их с нуля, при условии, что исходный код решения станет общедоступным.