Как устроены современные языковые модели: от обучения до системных ограничений

Stanford Online 4,1 тыс. 1 ч 19 мин 3 мин 09.03.2026
Главное

Индустрия больших языковых моделей: масштаб, методы и будущее 🤖 0:05

Языковые модели (LM) стали вездесущими: от автодополнения в клавиатурах смартфонов до сложных систем кодирования и робототехники. Сегодня эти модели представляют собой результат колоссальных вложений капитала, времени и вычислительных мощностей. Они трансформировались из простых инструментов предсказания текста в масштабные артефакты, создаваемые сотнями специалистов, что делает их изучение критически важным для понимания современного технологического ландшафта.

🏗️ Масштаб и экономика современных LLM 1:11

Современные модели, такие как Llama 3 от Meta или Qwen3 от Alibaba, поражают своим масштабом. Тренировка типичной модели уровня Qwen3 требует около 36 триллионов токенов — это примерно 27 триллионов слов или 144 терабайта чистых текстовых данных.

Для наглядности:

2:35

Оценка затрат на обучение модели с 400+ миллиардами параметров (как Llama 3) показывает, что для этого требуется около $3,9 \times 10^{25}$ флопсов. При стоимости использования одного GPU NVIDIA H100 в $2 в час, цена одной предварительной тренировки такого гиганта достигает $42 млн. Лектор отмечает, что этот масштаб затрат объясняет стремительный рост акций NVIDIA, а сами компании уже всерьез обсуждают размещение дата-центров в космосе для охлаждения и питания этих мощностей.

🧠 Что такое языковая модель: от вероятности к авторегрессии 5:44

Фундаментально языковая модель — это объект, обученный моделировать структуру языка, то есть словарь и правила грамматики. Она работает как многоклассовый классификатор, который пытается предсказать вероятность следующего слова в последовательности.

Основные подходы к моделированию:

  1. Авторегрессионное моделирование: модель предсказывает слова одно за другим. После предсказания слова, оно добавляется к входной последовательности, и процесс повторяется.
  2. Масштабируемое обучение (Next Token Prediction): во время обучения модель получает последовательность, сдвигает ее на один шаг и использует как целевую метку (ground truth) для вычисления ошибки и обучения через градиентный спуск.
  3. N-граммы (устаревший метод): метод, предполагающий, что следующее слово зависит только от $n-1$ предыдущих слов, что является крайне упрощенным подходом по сравнению с современными нейросетями.

🚀 Почему моделирование языка стало «золотым стандартом» 24:41

Лектор выделяет три ключевых аргумента в пользу того, почему именно языковое моделирование оказалось наиболее эффективным путем развития ИИ:

🛠️ Архитектура и этапы тренировки 37:43

Архитектура Transformer стала стандартом благодаря способности эффективно масштабироваться, в отличие от многослойных перцептронов (MLP), которые зависят от длины последовательности и размера словаря. Важным является разделение процесса на два этапа:

  1. Pre-training (предварительная тренировка): обучение на гигантском объеме интернет-данных для получения общих знаний.
  2. Post-training (пост-тренировка): «приручение» модели. На этом этапе через RLHF (обучение с подкреплением на основе отзывов людей) модель учат следовать инструкциям и соблюдать правила безопасности.

Лектор подчеркивает, что безопасность — это постоянная «игра в кошки-мышки»: разработчики внедряют guardrails, а пользователи находят обходные пути, например, через запросы в стиле «будь моей бабушкой» или использование Base64-кодирования.

🌐 Современный ландшафт: Frontier vs Open Weights 1:14:09

В индустрии сегодня доминируют три стратегии:

Лектор заключает, что текущая ситуация вызывает как восторг от возможностей (включая решение сложнейших математических задач), так и опасения по поводу безопасности — от кибератак до создания био-оружия, что заставляет правительства по всему миру включаться в процесс регулирования.

💬 Цитаты

«Языковые модели сегодня — это автодополнение на стероидах.»

«Если вы обучите модель достаточно хорошо, она сама научится выполнять задачи, которым вы её не учили напрямую.»

👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Токен
Базовая единица текста (слово или часть слова), которую модель обрабатывает как числовой вектор.
RLHF
Метод обучения с подкреплением на основе предпочтений людей, помогающий модели лучше следовать инструкциям.
Авторегрессия
Принцип работы модели, при котором каждое следующее значение зависит от предыдущих предсказанных значений.
Квантование
Метод уменьшения точности весов модели (например, с 16-бит до 4-бит) для снижения требований к памяти.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Transformer RLHF Llama 3 NVIDIA H100 Tokenization