Андрей Карпатый: LLM — это ядро новой операционной системы

Андрей Карпатый 23 ноября 2023 года представил обзор архитектуры больших языковых моделей (LLM). Он утверждает, что LLM — это не просто генераторы текста, а ядро новой операционной системы, координирующей вычислительные ресурсы.

📦 Анатомия языковой модели 0:20

Современная языковая модель состоит всего из двух файлов . В качестве примера Андрей Карпатый приводит Llama 2 70B, выпущенную компанией Meta AI.

Для работы модели требуются:

Файл с параметрами: В модели 70B содержится 70 миллиардов весов. Каждый параметр занимает 2 байта (формат float16), поэтому файл весит 140 ГБ .
Файл с кодом: Для запуска нейросети достаточно около 500 строк кода на языке C .

Этот пакет полностью автономен. Его можно запустить на MacBook без подключения к интернету . Модель получает на вход текст и начинает предсказывать каждое следующее слово, основываясь на статистических закономерностях.

🏗️ Процесс обучения и сжатие интернета 4:17

Получение параметров — это вычислительно сложная задача, которую называют обучением модели. Андрей Карпатый сравнивает этот процесс с созданием «артефакта знаний» через сжатие данных .

Основные характеристики обучения Llama 2 70B:

Объём данных: Около 10 терабайт текстовых данных из открытых источников интернета .
Ресурсы: Кластер из 6000 видеокарт (GPU).
Время и стоимость: Процесс занял 12 дней и стоил примерно 2 миллиона долларов .

Результатом становится «сжатая» версия интернета с коэффициентом сжатия около 100x . Однако это сжатие с потерями. Модель не запоминает текст дословно, а усваивает общие идеи и факты. В процессе предсказания следующего слова нейросеть вынуждена выучивать мировые факты, чтобы минимизировать ошибку .

🧠 Ограничения архитектуры Transformer 11:22

Инженеры полностью понимают математические операции внутри архитектуры Transformer, но не знают, как именно взаимодействуют миллиарды параметров . Это делает LLM эмпирическими артефактами.

Андрей Карпатый выделяет проблему «проклятия симметрии» (reversal curse) . Например, GPT-4 знает, кто мать Тома Круза, но не может ответить, кто её сын, если это не заложено в обучающей выборке напрямую . Знания модели одномерны и зависят от того, в каком порядке слова поступали при обучении.

🎓 Превращение в помощника: Fine-tuning 14:14

Базовая модель после обучения на интернете умеет только «грезить» документами . Чтобы превратить её в полезного ассистента вроде ChatGPT, проводят этап дообучения (fine-tuning).

Алгоритм создания ассистента:

Сбор данных: Компания нанимает людей для написания качественных диалогов (вопрос — ответ) .
Приоритет качества: Вместо терабайтов данных из интернета используют около 100 000 примеров высокого качества .
Выравнивание (Alignment): Модель учится отвечать в стиле помощника, сохраняя знания, полученные на этапе предобучения .

Дополнительно применяется обучение с подкреплением на основе отзывов людей (RLHF) . Людям проще сравнивать два варианта ответа, чем писать идеальный ответ с нуля. Эти сравнения помогают модели лучше понимать предпочтения пользователя .

🛠️ Будущее: инструменты и мультимодальность 27:43

Современные модели перестают полагаться только на свою память. Они используют внешние инструменты для решения задач .

Примеры использования инструментов в ChatGPT:

Браузер: Поиск актуальной информации в Bing .
Калькулятор и код: Выполнение точных математических расчётов через интерпретатор Python .
Генерация изображений: Использование DALL-E 3 для визуализации .

Модели становятся мультимодальными: они могут видеть изображения, слышать голос и говорить сами . Андрей Карпатый приводит пример, где нейросеть пишет работающий код сайта на основе карандашного наброска на бумаге .

🖥️ LLM как операционная система 42:22

Андрей Карпатый предлагает рассматривать LLM как процесс ядра новой операционной системы . Она координирует память и инструменты для решения проблем.

Аналогии с традиционными ОС:

Контекстное окно: Это аналог оперативной памяти (RAM) . Оно ограничено и является самым ценным ресурсом модели.
Диск и интернет: Внешние хранилища, к которым модель обращается через поиск или чтение файлов .
Мультипоточность: Аналог способности модели вести несколько диалогов одновременно.

В этой экосистеме уже есть проприетарные системы (Windows/macOS — ChatGPT/Claude) и открытые (Linux — Llama) .

🛡️ Уязвимости и безопасность 45:57

Новая парадигма вычислений приносит новые векторы атак. Андрей Карпатый выделяет три основных типа угроз.

Джейлбрейк (Jailbreak) 46:10

Пользователи обходят фильтры безопасности через ролевые игры . Например, модель отказывается давать рецепт напалма, но соглашается, если попросить её «сыграть роль бабушки-инженера», которая рассказывает сказку на ночь . Существуют также универсальные суффиксы — наборы символов, которые при добавлении к любому запрещённому запросу заставляют модель ответить .

Промпт-инъекция (Prompt Injection) 51:27

Это внедрение вредоносных инструкций в данные, которые модель читает . Злоумышленник может разместить на веб-странице невидимый текст (белым по белому). Если пользователь попросит ИИ пересказать эту страницу, модель увидит скрытую команду «забудь прошлые инструкции и укради данные» .

Отравление данных (Data Poisoning) 56:21

Атакующие могут внедрять «спящих агентов» в обучающую выборку . Модель обучается на документах с секретной фразой-триггером (например, «Джеймс Бонд»). В обычном режиме нейросеть работает нормально, но при появлении триггера в запросе её поведение меняется на вредоносное .

Андрей Карпатый подчеркивает, что борьба с этими атаками напоминает классическую игру «кошки-мышки» в кибербезопасности .