# Как устроены современные языковые модели: от обучения до системных ограничений

Источник: https://www.youtube.com/watch?v=3orP3u2-jcg
Канал: Stanford Online
Опубликовано: 09.03.2026

---

## Индустрия больших языковых моделей: масштаб, методы и будущее 🤖
[[JUMP:0:05]]

Языковые модели (LM) стали вездесущими: от автодополнения в клавиатурах смартфонов до сложных систем кодирования и робототехники. Сегодня эти модели представляют собой результат колоссальных вложений капитала, времени и вычислительных мощностей. Они трансформировались из простых инструментов предсказания текста в масштабные артефакты, создаваемые сотнями специалистов, что делает их изучение критически важным для понимания современного технологического ландшафта.

### 🏗️ Масштаб и экономика современных LLM
[[JUMP:1:11]]

Современные модели, такие как Llama 3 от Meta или Qwen3 от Alibaba, поражают своим масштабом. Тренировка типичной модели уровня Qwen3 требует около 36 триллионов токенов — это примерно 27 триллионов слов или 144 терабайта чистых текстовых данных.

Для наглядности:

*   Если распечатать эти данные (по 300 слов на страницу), стопка бумаги достигнет 9000 километров в высоту — это в 22 раза выше орбиты МКС.
*   Если бы человек печатал этот объем со скоростью 50 слов в минуту, ему потребовался бы миллион лет.

[[JUMP:2:35]]
Оценка затрат на обучение модели с 400+ миллиардами параметров (как Llama 3) показывает, что для этого требуется около $3,9 \times 10^{25}$ флопсов. При стоимости использования одного GPU NVIDIA H100 в $2 в час, цена одной предварительной тренировки такого гиганта достигает $42 млн. Лектор отмечает, что этот масштаб затрат объясняет стремительный рост акций NVIDIA, а сами компании уже всерьез обсуждают размещение дата-центров в космосе для охлаждения и питания этих мощностей.

### 🧠 Что такое языковая модель: от вероятности к авторегрессии
[[JUMP:5:44]]

Фундаментально языковая модель — это объект, обученный моделировать структуру языка, то есть словарь и правила грамматики. Она работает как многоклассовый классификатор, который пытается предсказать вероятность следующего слова в последовательности.

Основные подходы к моделированию:

1.  **Авторегрессионное моделирование:** модель предсказывает слова одно за другим. После предсказания слова, оно добавляется к входной последовательности, и процесс повторяется.
2.  **Масштабируемое обучение (Next Token Prediction):** во время обучения модель получает последовательность, сдвигает ее на один шаг и использует как целевую метку (ground truth) для вычисления ошибки и обучения через градиентный спуск.
3.  **N-граммы (устаревший метод):** метод, предполагающий, что следующее слово зависит только от $n-1$ предыдущих слов, что является крайне упрощенным подходом по сравнению с современными нейросетями.

### 🚀 Почему моделирование языка стало «золотым стандартом»
[[JUMP:24:41]]

Лектор выделяет три ключевых аргумента в пользу того, почему именно языковое моделирование оказалось наиболее эффективным путем развития ИИ:

*   **Универсальность задач:** многие операции в реальном мире — написание кода, составление емейлов, логические выводы — сводятся к задаче завершения последовательности.
*   **Мультизадачное обучение:** обучая модель на огромном корпусе текстов через простую задачу предсказания токена, мы вынуждаем её запоминать факты, логические связи и предметные области, не создавая специфических датасетов для каждой задачи.
*   **Масштабируемость:** доказано, что с увеличением объема данных, размера модели и вычислительного бюджета «test loss» (потеря) продолжает снижаться без видимых пределов.

### 🛠️ Архитектура и этапы тренировки
[[JUMP:37:43]]

Архитектура Transformer стала стандартом благодаря способности эффективно масштабироваться, в отличие от многослойных перцептронов (MLP), которые зависят от длины последовательности и размера словаря. Важным является разделение процесса на два этапа:

1.  **Pre-training (предварительная тренировка):** обучение на гигантском объеме интернет-данных для получения общих знаний.
2.  **Post-training (пост-тренировка):** «приручение» модели. На этом этапе через RLHF (обучение с подкреплением на основе отзывов людей) модель учат следовать инструкциям и соблюдать правила безопасности.

Лектор подчеркивает, что безопасность — это постоянная «игра в кошки-мышки»: разработчики внедряют guardrails, а пользователи находят обходные пути, например, через запросы в стиле «будь моей бабушкой» или использование Base64-кодирования.

### 🌐 Современный ландшафт: Frontier vs Open Weights
[[JUMP:1:14:09]]

В индустрии сегодня доминируют три стратегии:

*   **Frontier-модели (OpenAI, Anthropic):** закрытые системы за платным API, обладающие «секретным соусом» в виде алгоритмов и данных.
*   **Open-weights модели (Llama, Kimi):** компании публикуют веса, позволяя сообществу изучать, оптимизировать и запускать их локально.
*   **Академические open-source проекты (Olmo):** полностью открытые системы с доступом к данным и коду для фундаментальных исследований.

Лектор заключает, что текущая ситуация вызывает как восторг от возможностей (включая решение сложнейших математических задач), так и опасения по поводу безопасности — от кибератак до создания био-оружия, что заставляет правительства по всему миру включаться в процесс регулирования.