Свои веса — ближе к телу: Как MosaicML меняет экономику обучения больших языковых моделей

На рынке искусственного интеллекта наметился новый тренд: компании все чаще отказываются от использования универсальных облачных API в пользу обучения собственных проприетарных моделей. Пионером этого движения стала компания MosaicML, которая специализируется на демократизации доступа к обучению больших языковых моделей (LLM). В интервью для The Cognitive Revolution главный ученый MosaicML Джонатан Франкл и инженер по исследованиям Абхи Венигалла рассказали, как сделать обучение моделей «скучным» и почему частные данные важнее «сырой» вычислительной мощности.

🏭 Смена парадигмы: от универсальных API к собственным весам 8:31

По мнению Джонатана Франкла, вопрос «кто обучает свои модели?» сегодня имеет простой ответ — все . Основной движущей силой этого процесса являются проприетарные данные. В эпоху «до ChatGPT» данные считались главным стратегическим преимуществом (моатом) компании. В 2022 году фокус сместился на то, чтобы «обучать модель как можно сильнее», но MosaicML возвращает индустрию к истокам, делая процесс создания кастомных моделей предсказуемым и доступным .

Клиенты MosaicML делятся на две основные группы:

AI-первые стартапы: Компании вроде Replit, которым нужны специфические возможности (например, понимание редких языков программирования), недоступные в стандартных API .
Крупный консервативный бизнес: Компании, обладающие огромными объемами ценных данных, которые они не хотят передавать третьим лицам по соображениям безопасности и контроля .

Команда MosaicML подчеркивает, что выбор между GPT-4 и собственной моделью — это ложная дихотомия . Джонатан Франкл утверждает, что большинство клиентов используют оба подхода одновременно: GPT-4 — для общих задач, а кастомные модели от MosaicML — для работы с чувствительными внутренними данными или узкоспециализированными процессами .

🧪 Технологический прорыв: GPT-3 за $500 000 и Stable Diffusion за $50 000 1:46

MosaicML неоднократно попадала в заголовки СМИ благодаря радикальному снижению стоимости обучения современных архитектур:

В сентябре 2022 года компания впервые предложила обучение моделей качества GPT-3 всего за $500 000 .
В январе 2023 года стоимость обучения Stable Diffusion с нуля была доведена до $160 000 .
Всего через несколько месяцев, в апреле 2023 года, этот же показатель опустился ниже отметки в $50 000 .

Абхи Венигалла отмечает, что прозрачность ценообразования — ключевой фактор доверия. В отличие от закрытых провайдеров, MosaicML разделяет стоимость обучения и стоимость инференса, позволяя клиентам платить за чистые вычислительные мощности GPU . При этом клиенты получают полный контроль над весами моделей и могут запускать их в своем частном облаке (VPC) или даже на собственных серверах .

📑 Рабочие лошадки бизнеса: Экстракция и Саммаризация 12:18

Несмотря на хайп вокруг чат-ботов, реальные задачи бизнеса часто выглядят «скучно». Джонатан Франкл выделяет два основных сценария использования LLM в энтерпрайзе:

Экстракция (извлечение данных): Выделение конкретной информации из огромных массивов документов (например, судебных решений на 100+ страниц) .
Саммаризация (резюмирование): Создание кратких выжимок из баз знаний или логов взаимодействия с клиентами .

Абхи Венигалла добавляет, что модели позволяют масштабировать процессы, которые раньше были физически невозможны из-за стоимости человеческого труда, например, персонализированную поддержку каждого клиента в режиме реального времени .

📏 Революция длинного контекста: Технология ALiBi 49:50

Одним из самых заметных релизов компании стала модель MPT-7B-StoryWriter с контекстным окном в 65 000 токенов, что на момент выхода шокировало AI-сообщество . Секрет успеха кроется в использовании метода ALiBi (Attention with Linear Biases) .

Ключевые особенности ALiBi, по объяснению Абхи Венигаллы:

Отказ от позиционных эмбеддингов: Вместо жестко заданных позиций в ядро внимания (attention) добавляется линейный сдвиг (bias) .
Экстраполяция: Модель, обученная на контексте 2 048 токенов, может эффективно работать с гораздо более длинными последовательностями на этапе инференса без переобучения .
Масштабируемость: Стоимость работы с длинным контекстом растет квадратично, но в реальности вычислительная часть «внимания» занимает менее 10% общих затрат при стандартных размерах. Для контекста 65k затраты на токен выросли всего в 4 раза по сравнению с базовыми 2k .

Джонатан Франкл поясняет, что теоретически ALiBi позволяет работать с бесконечным контекстом, пока не закончится память GPU . На практике же качество генерации начинает заметно снижаться, когда длина последовательности превышает обучающую более чем в два раза .

🛠 Процесс обучения: Почему «тонкая настройка» — это миф 26:19

Джонатан Франкл критикует популярный термин «fine-tuning» (тонкая настройка), если речь идет о дообучении на больших массивах данных. «Когда вы приходите с 200 миллиардами токенов — в этом нет ничего „тонкого“, это такой же хардкор, как и пре-трейнинг», — утверждает ученый .

Основные технические инсайды процесса:

Борьба с забыванием: При дообучении на частных данных необходимо подмешивать открытые датасеты (Wikipedia, код), чтобы избежать «катастрофического забывания» общих знаний о мире .
Гибкость чекпоинтов: MosaicML предлагает стартовые точки (checkpoint), которые уже прошли этап общего обучения, что позволяет клиентам экономить время и сразу переходить к специфике своего домена .
Токенизация: Это одна из самых «травмирующих» тем. Например, один символ хинди может превращаться в 8 токенов, что делает обучение на некоторых языках крайне неэффективным .

🏥 AI в науках о жизни и медицине 29:38

MosaicML активно работает в сфере Life Sciences. Совместно с центром CRFM Стэнфордского университета была создана модель BioMedLM, обученная исключительно на данных PubMed . Такие модели могут использоваться как вспомогательный инструмент для врачей при постановке диагнозов или для синтеза белков и аминокислот, где последовательности данных обрабатываются так же, как текст .

💰 Экономика инференса и будущее «на краю» 41:52

Вопрос стоимости инференса (использования уже обученной модели) остается критическим. MosaicML предлагает цену в $0,0005 за 1000 токенов для модели MPT-7B. Это означает, что обработка 20 000 токенов (около 40 страниц текста) стоит всего 1 цент .

Джонатан Франкл и Абхи Венигалла заявляют, что индустрия стремится к снижению маржинальных затрат до стоимости электричества . Однако сегодня основную часть цены составляет амортизация оборудования (GPU) и инфраструктурная сложность. MosaicML помогает компаниям не только обучать модели, но и деплоить их на выделенных мощностях, где стоимость рассчитывается не за запрос, а за час аренды GPU, что выгоднее при больших нагрузках .