# Свои веса — ближе к телу: Как MosaicML меняет экономику обучения больших языковых моделей

Источник: https://www.youtube.com/watch?v=5_qAuSQGLHQ
Канал: The Cognitive Revolution
Опубликовано: 16.06.2023

---

На рынке искусственного интеллекта наметился новый тренд: компании все чаще отказываются от использования универсальных облачных API в пользу обучения собственных проприетарных моделей. Пионером этого движения стала компания MosaicML, которая специализируется на демократизации доступа к обучению больших языковых моделей (LLM). В интервью для The Cognitive Revolution главный ученый MosaicML Джонатан Франкл и инженер по исследованиям Абхи Венигалла рассказали, как сделать обучение моделей «скучным» и почему частные данные важнее «сырой» вычислительной мощности.

## 🏭 Смена парадигмы: от универсальных API к собственным весам
[[JUMP:08:31]]

По мнению Джонатана Франкла, вопрос «кто обучает свои модели?» сегодня имеет простой ответ — все [08:31]. Основной движущей силой этого процесса являются проприетарные данные. В эпоху «до ChatGPT» данные считались главным стратегическим преимуществом (моатом) компании. В 2022 году фокус сместился на то, чтобы «обучать модель как можно сильнее», но MosaicML возвращает индустрию к истокам, делая процесс создания кастомных моделей предсказуемым и доступным [09:25].

Клиенты MosaicML делятся на две основные группы:

1.  **AI-первые стартапы:** Компании вроде Replit, которым нужны специфические возможности (например, понимание редких языков программирования), недоступные в стандартных API [15:47].
2.  **Крупный консервативный бизнес:** Компании, обладающие огромными объемами ценных данных, которые они не хотят передавать третьим лицам по соображениям безопасности и контроля [09:00].

Команда MosaicML подчеркивает, что выбор между GPT-4 и собственной моделью — это ложная дихотомия [24:09]. Джонатан Франкл утверждает, что большинство клиентов используют оба подхода одновременно: GPT-4 — для общих задач, а кастомные модели от MosaicML — для работы с чувствительными внутренними данными или узкоспециализированными процессами [24:48].

## 🧪 Технологический прорыв: GPT-3 за $500 000 и Stable Diffusion за $50 000
[[JUMP:01:46]]

MosaicML неоднократно попадала в заголовки СМИ благодаря радикальному снижению стоимости обучения современных архитектур:

*   В сентябре 2022 года компания впервые предложила обучение моделей качества GPT-3 всего за $500 000 [01:46].
*   В январе 2023 года стоимость обучения Stable Diffusion с нуля была доведена до $160 000 [01:59].
*   Всего через несколько месяцев, в апреле 2023 года, этот же показатель опустился ниже отметки в $50 000 [01:59].

Абхи Венигалла отмечает, что прозрачность ценообразования — ключевой фактор доверия. В отличие от закрытых провайдеров, MosaicML разделяет стоимость обучения и стоимость инференса, позволяя клиентам платить за чистые вычислительные мощности GPU [17:15]. При этом клиенты получают полный контроль над весами моделей и могут запускать их в своем частном облаке (VPC) или даже на собственных серверах [19:00].

## 📑 Рабочие лошадки бизнеса: Экстракция и Саммаризация
[[JUMP:12:18]]

Несмотря на хайп вокруг чат-ботов, реальные задачи бизнеса часто выглядят «скучно». Джонатан Франкл выделяет два основных сценария использования LLM в энтерпрайзе:

*   **Экстракция (извлечение данных):** Выделение конкретной информации из огромных массивов документов (например, судебных решений на 100+ страниц) [12:31].
*   **Саммаризация (резюмирование):** Создание кратких выжимок из баз знаний или логов взаимодействия с клиентами [12:18].

Абхи Венигалла добавляет, что модели позволяют масштабировать процессы, которые раньше были физически невозможны из-за стоимости человеческого труда, например, персонализированную поддержку каждого клиента в режиме реального времени [13:30].

## 📏 Революция длинного контекста: Технология ALiBi
[[JUMP:49:50]]

Одним из самых заметных релизов компании стала модель MPT-7B-StoryWriter с контекстным окном в 65 000 токенов, что на момент выхода шокировало AI-сообщество [03:03]. Секрет успеха кроется в использовании метода ALiBi (Attention with Linear Biases) [03:30].

Ключевые особенности ALiBi, по объяснению Абхи Венигаллы:

*   **Отказ от позиционных эмбеддингов:** Вместо жестко заданных позиций в ядро внимания (attention) добавляется линейный сдвиг (bias) [52:41].
*   **Экстраполяция:** Модель, обученная на контексте 2 048 токенов, может эффективно работать с гораздо более длинными последовательностями на этапе инференса без переобучения [53:07].
*   **Масштабируемость:** Стоимость работы с длинным контекстом растет квадратично, но в реальности вычислительная часть «внимания» занимает менее 10% общих затрат при стандартных размерах. Для контекста 65k затраты на токен выросли всего в 4 раза по сравнению с базовыми 2k [51:07].

Джонатан Франкл поясняет, что теоретически ALiBi позволяет работать с бесконечным контекстом, пока не закончится память GPU [53:59]. На практике же качество генерации начинает заметно снижаться, когда длина последовательности превышает обучающую более чем в два раза [54:25].

## 🛠 Процесс обучения: Почему «тонкая настройка» — это миф
[[JUMP:26:19]]

Джонатан Франкл критикует популярный термин «fine-tuning» (тонкая настройка), если речь идет о дообучении на больших массивах данных. «Когда вы приходите с 200 миллиардами токенов — в этом нет ничего „тонкого“, это такой же хардкор, как и пре-трейнинг», — утверждает ученый [26:31].

Основные технические инсайды процесса:

*   **Борьба с забыванием:** При дообучении на частных данных необходимо подмешивать открытые датасеты (Wikipedia, код), чтобы избежать «катастрофического забывания» общих знаний о мире [26:57].
*   **Гибкость чекпоинтов:** MosaicML предлагает стартовые точки (checkpoint), которые уже прошли этап общего обучения, что позволяет клиентам экономить время и сразу переходить к специфике своего домена [25:40].
*   **Токенизация:** Это одна из самых «травмирующих» тем. Например, один символ хинди может превращаться в 8 токенов, что делает обучение на некоторых языках крайне неэффективным [32:44].

## 🏥 AI в науках о жизни и медицине
[[JUMP:29:38]]

MosaicML активно работает в сфере Life Sciences. Совместно с центром CRFM Стэнфордского университета была создана модель BioMedLM, обученная исключительно на данных PubMed [30:05]. Такие модели могут использоваться как вспомогательный инструмент для врачей при постановке диагнозов или для синтеза белков и аминокислот, где последовательности данных обрабатываются так же, как текст [31:11].

## 💰 Экономика инференса и будущее «на краю»
[[JUMP:41:52]]

Вопрос стоимости инференса (использования уже обученной модели) остается критическим. MosaicML предлагает цену в $0,0005 за 1000 токенов для модели MPT-7B. Это означает, что обработка 20 000 токенов (около 40 страниц текста) стоит всего 1 цент [41:52].

Джонатан Франкл и Абхи Венигалла заявляют, что индустрия стремится к снижению маржинальных затрат до стоимости электричества [48:15]. Однако сегодня основную часть цены составляет амортизация оборудования (GPU) и инфраструктурная сложность. MosaicML помогает компаниям не только обучать модели, но и деплоить их на выделенных мощностях, где стоимость рассчитывается не за запрос, а за час аренды GPU, что выгоднее при больших нагрузках [46:29].

---