Как обучают современные модели: архитектурный консенсус

Stanford Online 100 тыс. 1 ч 26 мин 3 мин 16.04.2025
Главное

Архитектуры и гиперпараметры нейросетей: опыт от OpenAI до Stanford CS336

Современные большие языковые модели (LLM) прошли путь от классических архитектур 2017 года до стандартизированных решений, оптимизированных для обучения и инференса. В лекции Stanford CS336 рассматривается эволюция трансформаторов, анализируются консенсусы в выборе гиперпараметров и обсуждаются новейшие методы стабилизации обучения, которые стали индустриальным стандартом.

🏗️ Архитектурные вариации и эволюция трансформаторов

Развитие архитектур последних лет демонстрирует своего рода «конвергентную эволюцию». Хотя существует множество моделей (от OLMo 2 до Gemma 3), большинство из них пришло к унифицированному набору решений.

Стандартизация слоев нормализации

Активации и Gated Linear Units (GLU)

Позиционное кодирование: победа RoPE

⚙️ Правила выбора гиперпараметров

Выбор гиперпараметров часто является консервативным процессом: исследователи предпочитают копировать проверенные значения, чтобы минимизировать риски при обучении.

🛡️ Стабилизация обучения и «проблемные» зоны

При обучении моделей на огромных массивах данных критически важным становится контроль за «взрывом» градиентов.

🧠 Инференс и оптимизация внимания

Эффективность генерации текста определяется использованием KV-кэша, но этот процесс имеет слабую арифметическую интенсивность (много обращений к памяти при малом количестве вычислений).

💬 Цитаты

«Большое обучение моделей — это игра по копированию гиперпараметров у других людей.»

Лектор Stanford Online 44:11

«Матричные умножения — это буквально всё, что вам нужно, чтобы заставить их работать.»

Лектор Stanford Online 16:42
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
KV-cache
Технология хранения уже вычисленных ключей и значений для генерации текста, предотвращающая повторные вычисления.
RoPE
Метод кодирования позиций токенов через поворот векторов, обеспечивающий инвариантность к абсолютной позиции.
Z-loss
Вспомогательная функция потерь, удерживающая нормализатор softmax-слоя близким к единице для численной стабильности.
SwiGLU
Тип активации, использующий механизм «ворот» для улучшения производительности нейронной сети.
📊 Цифры
🗓 Хронология
  1. 2017 Выход оригинальной статьи о трансформаторах (Attention Is All You Need).
  2. 2020 Появление ранних исследований по RMS Norm и архитектурным аблициям.
  3. 2023 Массовый переход индустрии на RoPE и SwiGLU.
  4. 2025 Текущий этап: стандартизация методов стабилизации обучения (QK-norm, z-loss).
⚖️ Другая сторона
Искусственный интеллект Transformer SwiGLU RoPE KV-cache GQA