Стэнфорд о создании LLM: «Архитектура и гиперпараметры»

Stanford Online 100 тыс. 1 ч 26 мин 3 мин 16.04.2025
Главное

Архитектура и гиперпараметры нейроязыковых моделей: эволюция и консенсус 0:47

Современные большие языковые модели (LLM) прошли путь от оригинальной архитектуры Transformer до сложных, оптимизированных систем. Лекция Стэнфордского университета в рамках курса CS336 посвящена детальному анализу того, как изменились подходы к обучению и проектированию этих моделей, и какие параметры сегодня считаются «золотым стандартом».

1. Архитектурные вариации: от стандартного Transformer к современным моделям 4:28

Первоначальная архитектура Transformer, представленная в 2017 году, претерпела значительные изменения. Сейчас индустрия пришла к своего рода «конвергентной эволюции».

2. Активации и гейтированные линейные модули 19:15

Выбор функций активации и типов MLP оказался критически важным для производительности моделей.

3. Позиционное кодирование: победа RoPE 32:43

Ранее существовало множество методов кодирования позиций (абсолютное, относительное), но сегодня индустрия практически единогласно перешла на RoPE (Rotary Position Embeddings).

4. Гиперпараметры и их настройка 41:03

Выбор гиперпараметров часто основывается на эмпирических правилах, которые доказали свою эффективность:

5. Стабильность обучения: «волшебная» сила LayerNorm

По мере роста моделей проблемы численной стабильности (взрыв градиентов) становятся всё более актуальными.

6. Оптимизация инференса: GQA и MQA

Для борьбы с высокими затратами памяти при генерации текста (из-за KV cache) применяются специальные подходы к организации внимания:

💬 Цитаты

«Большие языковые модели — это в некотором смысле игра в копирование гиперпараметров у других людей.»

«LayerNormы оказались поразительно эффективными, не слишком влияя на общую производительность.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RoPE
Метод позиционного кодирования, использующий вращение векторов для сохранения относительной позиции слов.
SwiGLU
Тип гейтированного линейного модуля, ставший стандартом в современных MLP слоях трансформеров.
KV cache
Кэш ключей и значений, позволяющий ускорить авторегрессионную генерацию текста, избегая пересчета прошлых состояний.
GQA
Групповое внимание к запросам, позволяющее снизить требования к памяти при инференсе за счет совместного использования ключей и значений.
Softmax
Функция, преобразующая вектор чисел в распределение вероятностей, критически важная для работы внимания.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Transformer SwiGLU RoPE LayerNorm GQA