Свои веса — ближе к телу: Как MosaicML меняет экономику обучения больших языковых моделей

The Cognitive Revolution 806 59 мин 5 мин 16.06.2023
Главное

На рынке искусственного интеллекта наметился новый тренд: компании все чаще отказываются от использования универсальных облачных API в пользу обучения собственных проприетарных моделей. Пионером этого движения стала компания MosaicML, которая специализируется на демократизации доступа к обучению больших языковых моделей (LLM). В интервью для The Cognitive Revolution главный ученый MosaicML Джонатан Франкл и инженер по исследованиям Абхи Венигалла рассказали, как сделать обучение моделей «скучным» и почему частные данные важнее «сырой» вычислительной мощности.

🏭 Смена парадигмы: от универсальных API к собственным весам 8:31

По мнению Джонатана Франкла, вопрос «кто обучает свои модели?» сегодня имеет простой ответ — все . Основной движущей силой этого процесса являются проприетарные данные. В эпоху «до ChatGPT» данные считались главным стратегическим преимуществом (моатом) компании. В 2022 году фокус сместился на то, чтобы «обучать модель как можно сильнее», но MosaicML возвращает индустрию к истокам, делая процесс создания кастомных моделей предсказуемым и доступным .

Клиенты MosaicML делятся на две основные группы:

  1. AI-первые стартапы: Компании вроде Replit, которым нужны специфические возможности (например, понимание редких языков программирования), недоступные в стандартных API .
  2. Крупный консервативный бизнес: Компании, обладающие огромными объемами ценных данных, которые они не хотят передавать третьим лицам по соображениям безопасности и контроля .

Команда MosaicML подчеркивает, что выбор между GPT-4 и собственной моделью — это ложная дихотомия . Джонатан Франкл утверждает, что большинство клиентов используют оба подхода одновременно: GPT-4 — для общих задач, а кастомные модели от MosaicML — для работы с чувствительными внутренними данными или узкоспециализированными процессами .

🧪 Технологический прорыв: GPT-3 за $500 000 и Stable Diffusion за $50 000 1:46

MosaicML неоднократно попадала в заголовки СМИ благодаря радикальному снижению стоимости обучения современных архитектур:

Абхи Венигалла отмечает, что прозрачность ценообразования — ключевой фактор доверия. В отличие от закрытых провайдеров, MosaicML разделяет стоимость обучения и стоимость инференса, позволяя клиентам платить за чистые вычислительные мощности GPU . При этом клиенты получают полный контроль над весами моделей и могут запускать их в своем частном облаке (VPC) или даже на собственных серверах .

📑 Рабочие лошадки бизнеса: Экстракция и Саммаризация 12:18

Несмотря на хайп вокруг чат-ботов, реальные задачи бизнеса часто выглядят «скучно». Джонатан Франкл выделяет два основных сценария использования LLM в энтерпрайзе:

Абхи Венигалла добавляет, что модели позволяют масштабировать процессы, которые раньше были физически невозможны из-за стоимости человеческого труда, например, персонализированную поддержку каждого клиента в режиме реального времени .

📏 Революция длинного контекста: Технология ALiBi 49:50

Одним из самых заметных релизов компании стала модель MPT-7B-StoryWriter с контекстным окном в 65 000 токенов, что на момент выхода шокировало AI-сообщество . Секрет успеха кроется в использовании метода ALiBi (Attention with Linear Biases) .

Ключевые особенности ALiBi, по объяснению Абхи Венигаллы:

Джонатан Франкл поясняет, что теоретически ALiBi позволяет работать с бесконечным контекстом, пока не закончится память GPU . На практике же качество генерации начинает заметно снижаться, когда длина последовательности превышает обучающую более чем в два раза .

🛠 Процесс обучения: Почему «тонкая настройка» — это миф 26:19

Джонатан Франкл критикует популярный термин «fine-tuning» (тонкая настройка), если речь идет о дообучении на больших массивах данных. «Когда вы приходите с 200 миллиардами токенов — в этом нет ничего „тонкого“, это такой же хардкор, как и пре-трейнинг», — утверждает ученый .

Основные технические инсайды процесса:

🏥 AI в науках о жизни и медицине 29:38

MosaicML активно работает в сфере Life Sciences. Совместно с центром CRFM Стэнфордского университета была создана модель BioMedLM, обученная исключительно на данных PubMed . Такие модели могут использоваться как вспомогательный инструмент для врачей при постановке диагнозов или для синтеза белков и аминокислот, где последовательности данных обрабатываются так же, как текст .

💰 Экономика инференса и будущее «на краю» 41:52

Вопрос стоимости инференса (использования уже обученной модели) остается критическим. MosaicML предлагает цену в $0,0005 за 1000 токенов для модели MPT-7B. Это означает, что обработка 20 000 токенов (около 40 страниц текста) стоит всего 1 цент .

Джонатан Франкл и Абхи Венигалла заявляют, что индустрия стремится к снижению маржинальных затрат до стоимости электричества . Однако сегодня основную часть цены составляет амортизация оборудования (GPU) и инфраструктурная сложность. MosaicML помогает компаниям не только обучать модели, но и деплоить их на выделенных мощностях, где стоимость рассчитывается не за запрос, а за час аренды GPU, что выгоднее при больших нагрузках .


💬 Цитаты

«В старые добрые времена говорили, что данные — это ваш ров. Мы возвращаем это правило, делая обучение моделей скучным.»

Абхи Венигалла 09:38

«Я ненавижу слово fine-tuning. Когда вы хотите обучиться на 200 миллиардах токенов, в этом нет ничего «тонкого».»

Джонатан Франкл 26:31

«Мы делаем выбор между исследованием и обслуживанием клиентов, потому что спрос зашкаливает.»

Джонатан Франкл 49:11
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
ALiBi (Attention with Linear Biases)
Метод кодирования позиций в трансформерах, позволяющий экстраполировать модель на более длинные тексты, чем те, на которых она обучалась.
VPC (Virtual Private Cloud)
Изолированное частное облако внутри публичного облака, обеспечивающее безопасность данных.
Катастрофическое забывание
Эффект, при котором нейросеть теряет общие знания при интенсивном дообучении на узкой специфической теме.
📊 Цифры
🗓 Хронология
  1. Сентябрь 2022 MosaicML запускает услугу обучения GPT-3 качества за $500k.
  2. Январь 2023 Обучение Stable Diffusion за $160k.
  3. Апрель 2023 Стоимость обучения Stable Diffusion падает ниже $50k.
  4. Май 2023 Релиз моделей серии MPT-7B с поддержкой длинного контекста.
⚖️ Другая сторона
Искусственный интеллект MosaicML ALiBi Джонатан Франкл Абхи Венигалла MPT-7B