Андрей Карпатый 23 ноября 2023 года представил обзор архитектуры больших языковых моделей (LLM). Он утверждает, что LLM — это не просто генераторы текста, а ядро новой операционной системы, координирующей вычислительные ресурсы.
📦 Анатомия языковой модели 0:20
Современная языковая модель состоит всего из двух файлов . В качестве примера Андрей Карпатый приводит Llama 2 70B, выпущенную компанией Meta AI.
Для работы модели требуются:
- Файл с параметрами: В модели 70B содержится 70 миллиардов весов. Каждый параметр занимает 2 байта (формат float16), поэтому файл весит 140 ГБ .
- Файл с кодом: Для запуска нейросети достаточно около 500 строк кода на языке C .
Этот пакет полностью автономен. Его можно запустить на MacBook без подключения к интернету . Модель получает на вход текст и начинает предсказывать каждое следующее слово, основываясь на статистических закономерностях.
🏗️ Процесс обучения и сжатие интернета 4:17
Получение параметров — это вычислительно сложная задача, которую называют обучением модели. Андрей Карпатый сравнивает этот процесс с созданием «артефакта знаний» через сжатие данных .
Основные характеристики обучения Llama 2 70B:
- Объём данных: Около 10 терабайт текстовых данных из открытых источников интернета .
- Ресурсы: Кластер из 6000 видеокарт (GPU).
- Время и стоимость: Процесс занял 12 дней и стоил примерно 2 миллиона долларов .
Результатом становится «сжатая» версия интернета с коэффициентом сжатия около 100x . Однако это сжатие с потерями. Модель не запоминает текст дословно, а усваивает общие идеи и факты. В процессе предсказания следующего слова нейросеть вынуждена выучивать мировые факты, чтобы минимизировать ошибку .
🧠 Ограничения архитектуры Transformer 11:22
Инженеры полностью понимают математические операции внутри архитектуры Transformer, но не знают, как именно взаимодействуют миллиарды параметров . Это делает LLM эмпирическими артефактами.
Андрей Карпатый выделяет проблему «проклятия симметрии» (reversal curse) . Например, GPT-4 знает, кто мать Тома Круза, но не может ответить, кто её сын, если это не заложено в обучающей выборке напрямую . Знания модели одномерны и зависят от того, в каком порядке слова поступали при обучении.
🎓 Превращение в помощника: Fine-tuning 14:14
Базовая модель после обучения на интернете умеет только «грезить» документами . Чтобы превратить её в полезного ассистента вроде ChatGPT, проводят этап дообучения (fine-tuning).
Алгоритм создания ассистента:
- Сбор данных: Компания нанимает людей для написания качественных диалогов (вопрос — ответ) .
- Приоритет качества: Вместо терабайтов данных из интернета используют около 100 000 примеров высокого качества .
- Выравнивание (Alignment): Модель учится отвечать в стиле помощника, сохраняя знания, полученные на этапе предобучения .
Дополнительно применяется обучение с подкреплением на основе отзывов людей (RLHF) . Людям проще сравнивать два варианта ответа, чем писать идеальный ответ с нуля. Эти сравнения помогают модели лучше понимать предпочтения пользователя .
🛠️ Будущее: инструменты и мультимодальность 27:43
Современные модели перестают полагаться только на свою память. Они используют внешние инструменты для решения задач .
Примеры использования инструментов в ChatGPT:
- Браузер: Поиск актуальной информации в Bing .
- Калькулятор и код: Выполнение точных математических расчётов через интерпретатор Python .
- Генерация изображений: Использование DALL-E 3 для визуализации .
Модели становятся мультимодальными: они могут видеть изображения, слышать голос и говорить сами . Андрей Карпатый приводит пример, где нейросеть пишет работающий код сайта на основе карандашного наброска на бумаге .
🖥️ LLM как операционная система 42:22
Андрей Карпатый предлагает рассматривать LLM как процесс ядра новой операционной системы . Она координирует память и инструменты для решения проблем.
Аналогии с традиционными ОС:
- Контекстное окно: Это аналог оперативной памяти (RAM) . Оно ограничено и является самым ценным ресурсом модели.
- Диск и интернет: Внешние хранилища, к которым модель обращается через поиск или чтение файлов .
- Мультипоточность: Аналог способности модели вести несколько диалогов одновременно.
В этой экосистеме уже есть проприетарные системы (Windows/macOS — ChatGPT/Claude) и открытые (Linux — Llama) .
🛡️ Уязвимости и безопасность 45:57
Новая парадигма вычислений приносит новые векторы атак. Андрей Карпатый выделяет три основных типа угроз.
Джейлбрейк (Jailbreak) 46:10
Пользователи обходят фильтры безопасности через ролевые игры . Например, модель отказывается давать рецепт напалма, но соглашается, если попросить её «сыграть роль бабушки-инженера», которая рассказывает сказку на ночь . Существуют также универсальные суффиксы — наборы символов, которые при добавлении к любому запрещённому запросу заставляют модель ответить .
Промпт-инъекция (Prompt Injection) 51:27
Это внедрение вредоносных инструкций в данные, которые модель читает . Злоумышленник может разместить на веб-странице невидимый текст (белым по белому). Если пользователь попросит ИИ пересказать эту страницу, модель увидит скрытую команду «забудь прошлые инструкции и укради данные» .
Отравление данных (Data Poisoning) 56:21
Атакующие могут внедрять «спящих агентов» в обучающую выборку . Модель обучается на документах с секретной фразой-триггером (например, «Джеймс Бонд»). В обычном режиме нейросеть работает нормально, но при появлении триггера в запросе её поведение меняется на вредоносное .
Андрей Карпатый подчеркивает, что борьба с этими атаками напоминает классическую игру «кошки-мышки» в кибербезопасности .