Янник Кильчер о прогрессивном расширении блоков в LLaMA Pro

Yannic Kilcher 35,4 тыс. 31 мин 2 мин 07.01.2024
Главное

LLaMA Pro: масштабирование знаний без «забывания» прошлого 0:00

Исследователи представили новый метод дообучения больших языковых моделей (LLM) — LLaMA Pro, позволяющий расширять функциональность модели, не принося в жертву уже полученные ранее знания. Основная идея работы заключается в использовании прогрессивного расширения блоков (block expansion), что решает проблему катастрофического забывания (catastrophic forgetting) при обучении новым навыкам. По мнению ведущего и ИИ-исследователя Янника Кильчера (Yannic Kilcher), предложенная методика представляет собой интересный подход к «пост-претрейнингу» (post pre-training), хотя и вызывает ряд вопросов относительно его универсальности.

Проблема «забывания» и метод расширения 3:46

Традиционно при дообучении моделей на новых данных, например, для узкоспециализированных задач вроде программирования или математики, модель часто теряет навыки в общих областях. Авторы исследования предлагают архитектурное решение:

По словам Кильчера, такой подход позволяет эффективно наращивать вычислительную мощность модели, при этом «направляя» новые блоки на изучение целевых доменов.

Нюансы реализации и критика 12:55

Несмотря на эффективность, описанную в статье, Янник Кильчер отмечает несколько неоднозначных моментов:

  1. Вычислительные затраты: Обучение проводилось на 16 графических процессорах Nvidia H800 (автор предполагает, что речь об H100) в течение 7 дней, что требует значительных ресурсов. Это нельзя назвать «легким» дообучением в домашних условиях, хотя это и дешевле полного претрейнинга.
  2. Вопрос переобучения: Скепсис исследователя вызывает тот факт, что модель обучается только на новых данных без смешивания с исходным корпусом. Кильчер полагает, что метод работает успешно лишь до тех пор, пока новые данные имеют значительное пересечение с областью знаний претрейнинга, как в случае с кодом и математикой.
  3. Математическая строгость: Описанная в статье стратегия выбора слоев для копирования выглядит несколько запутанной и не всегда четко определена в параметрах, хотя сам механизм «копирование-заморозка-обучение» в итоге оказывается достаточно простым и работоспособным.

Выводы исследования 28:43

Результаты показывают, что LLaMA Pro успешно осваивает программирование и математические задачи, сохраняя при этом производительность в общих языковых бенчмарках. Янник Кильчер заключает, что, хотя предложенная математическая база метода иногда кажется избыточной или спорной, эмпирические доказательства подтверждают успех данной «рецептуры». В будущем модель может стать полезным инструментом для тех, кто хочет адаптировать существующие LLM, не создавая их с нуля, при условии, что исходный код решения станет общедоступным.

💬 Цитаты

«Люди обычно приобретают новые навыки, не компрометируя старые. Я не думаю, что это обязательно верно.»

Янник Кильчер 03:59

«Это не что-то, что вы делаете дома... это все еще довольно масштабно.»

Янник Кильчер 14:30
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Катастрофическое забывание
Проблема в машинном обучении, когда модель полностью теряет старые знания при изучении новых задач.
Пост-претрейнинг
Этап обучения модели, который происходит после основного претрейнинга, но до этапа настройки инструкций.
Операция идентичности
Функция, которая возвращает входные данные без изменений, используемая для стабилизации архитектуры при добавлении слоев.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект LLaMA Pro LLaMA catastrophic forgetting