Ян Дюбуа о создании LLM: почему данные и системы важнее архитектуры

Stanford Online 2 млн 1 ч 44 мин 5 мин 27.08.2024
Главное

Ян Дюбуа летом 2024 года представил в Стэнфордском университете обзор процесса создания современных языковых моделей. Он утверждает: успех систем уровня ChatGPT на 80% зависит от подготовки данных, методов оценки и системной оптимизации, а не от выбора архитектуры нейросети.

🏗️ Пять столпов разработки LLM 0:56

Создание большой языковой модели (LLM) состоит из пяти ключевых компонентов . Архитектура трансформера и алгоритмы потерь традиционно находятся в центре внимания ученых, но индустрия фокусируется на других аспектах.

Компоненты современной разработки:

По мнению Яна Дюбуа, архитектурные различия между моделями сейчас минимальны . Основной прогресс достигается за счет качества данных и умения эффективно распределять вычисления на тысячах видеокарт.

📚 Претрейнинг: как модель учит язык 2:58

Этап предварительного обучения (pretraining) превращает модель в мощный предсказатель следующего слова . Модель обучается на колоссальных объемах текста из интернета, пытаясь минимизировать кросс-энтропийную потерю.

Современные LLM работают по авторегрессионному принципу . Они разбивают вероятность последовательности на произведение условных вероятностей каждого следующего токена.

Процесс предсказания:

  1. Текст разбивается на токены (subwords).
  2. Каждый токен преобразуется в вектор (embedding).
  3. Трансформер обрабатывает контекст и выдает распределение вероятностей для следующего шага.
  4. Выбирается наиболее вероятный токен, который снова подается на вход.

Главный недостаток такой схемы — медленная генерация . Из-за циклического характера процесса время создания ответа растет линейно вместе с его длиной.

🧩 Токенизация и проблема редких слов 10:46

Токенизаторы необходимы для перевода человеческого текста в понятные машине идентификаторы . Обычное разбиение по словам не подходит из-за опечаток и особенностей языков вроде тайского, где нет пробелов.

Стандартом индустрии стал алгоритм Byte Pair Encoding (BPE) . Он итеративно объединяет наиболее часто встречающиеся пары символов в один токен.

Особенности токенизации:

Ян Дюбуа полагает, что в будущем индустрия перейдет на токенизацию по байтам, чтобы избавиться от текущих ограничений .

📊 Методы оценки: от перплексии к MMLU 19:11

В процессе разработки инженеры используют перплексию (perplexity) — экспоненту от средней потери на токен . Она показывает, между сколькими вариантами следующего слова «колеблется» модель. За последние 6 лет перплексия лучших систем упала с 70 до 10 единиц .

Академические бенчмарки стали основным способом сравнения готовых моделей:

Существует проблема загрязнения данных (data contamination) . Когда тестовые вопросы попадают в обучающую выборку, результаты модели становятся фиктивными. По словам Яна Дюбуа, компании часто скрывают состав данных, что делает независимую проверку крайне сложной.

🌐 Очистка интернета: как готовят данные 28:43

Обучение на «сыром» интернете невозможно из-за обилия мусора . Исходный датасет Common Crawl содержит 250 миллиардов страниц объемом около 1 петабайта .

Этапы фильтрации данных:

  1. Извлечение текста из HTML-разметки.
  2. Удаление нежелательного контента: порнография, разжигание ненависти, личные данные (PII) .
  3. Дедупликация: удаление повторяющихся текстов и шаблонных подвалов сайтов .
  4. Классификация по качеству: обучение маленькой модели для поиска текстов, похожих на Wikipedia .

Инженеры специально увеличивают долю качественных источников, таких как научные статьи (arXiv) и код на GitHub . Код особенно важен, так как он развивает у модели способности к логическому рассуждению.

📉 Законы масштабирования и экономика 40:56

В 2020 году исследователи OpenAI обнаружили, что качество LLM предсказуемо растет вместе с увеличением вычислительной мощности и объема данных . Эти зависимости называют законами масштабирования (Scaling Laws).

Опыт разработки Llama 3 400B показывает масштаб затрат :

Статья Chinchilla установила оптимальное соотношение: на каждый параметр модели должно приходиться минимум 20 токенов обучающих данных . Однако для снижения затрат на использование (инференс) компании обучают маленькие модели на избыточном количестве данных — до 150 токенов на параметр .

🤖 Пост-трейнинг: от текста к ассистенту 59:50

Претренированная модель — это просто автодополнитель текста. Чтобы она стала помощником вроде ChatGPT, требуется этап выравнивания (alignment).

Основные методы:

Ян Дюбуа отмечает, что SFT не учит модель новым знаниям . Этот этап лишь заставляет систему использовать те знания, которые уже были заложены в нее во время претрейнинга, в формате «вопрос-ответ».

⚖️ RLHF и упрощение через DPO 1:09:52

Обучение с подкреплением на основе отзывов людей (RLHF) помогает модели выбирать лучший ответ из нескольких вариантов . Традиционный метод PPO, использованный в ChatGPT, крайне сложен в реализации и требует настройки множества гиперпараметров .

Прорыв произошел с появлением метода DPO (Direct Preference Optimization), разработанного в Стэнфорде . Он заменяет сложный цикл обучения с подкреплением простой функцией потерь, которая увеличивает вероятность «хороших» ответов и уменьшает вероятность «плохих».

Проблемы человеческой оценки:

Для решения этих проблем Ян Дюбуа предлагает использовать RLAIF (Reinforcement Learning from AI Feedback), где одну модель оценивает другая, более мощная система . Это в 50 раз дешевле человеческого труда при сопоставимой точности.

⚡ Системная оптимизация и CUDA 1:37:06

Главное ограничение в обучении LLM — это не скорость вычислений, а скорость передачи данных между памятью и ядрами видеокарты .

Технологии ускорения:

Ян Дюбуа подчеркивает: современные нейросети простаивают большую часть времени, ожидая загрузки данных из памяти. Эффективная работа с GPU требует понимания иерархии памяти и минимизации коммуникаций между картами.

💬 Цитаты

«Архитектурные различия между моделями сейчас минимальны. В реальности на практике важны данные, оценка и системы.»

«Если вы хотите ускорить вычисления в PyTorch в два раза, просто используйте torch.compile.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
BPE (Byte Pair Encoding)
Алгоритм токенизации, который разбивает текст на часто встречающиеся последовательности символов.
DPO (Direct Preference Optimization)
Метод прямой настройки модели на предпочтения человека без использования отдельной модели вознаграждения.
Перплексия
Метрика, оценивающая, насколько хорошо модель предсказывает выборку; по сути — мера неопределенности модели.
SFT (Supervised Fine Tuning)
Обучение модели на специально подготовленных диалогах для имитации стиля ассистента.
📊 Цифры
🗓 Хронология
  1. 2019 Ричард Саттон публикует манифест «Горький урок» о важности вычислений.
  2. 2020 Исследователи OpenAI формулируют законы масштабирования (Scaling Laws).
  3. 2023 Команда Стэнфорда выпускает модель Alpaca и метод DPO.
  4. 2024 Выход Llama 3 и проведение данной лекции в Стэнфорде.
⚖️ Другая сторона
Искусственный интеллект Yann Dubois Stanford University ChatGPT Llama RLHF