Янник Килчер: «Jamba, DBRX и эра синтетических данных»

Обзор последних новинок в мире ML: от гибридных моделей до новых стандартов оценки 0:00

Последние две недели стали крайне насыщенными для сообщества машинного обучения: разработчики представили ряд значимых моделей, новых архитектур и подходов к обучению. В центре внимания оказались гибридные решения, объединяющие лучшие качества трансформеров и состояний пространства (SSM), а также успехи в области синтетических данных и автоматизированного тестирования. В этом обзоре мы рассмотрим ключевые анонсы, которые, по мнению автора видео Янника Килчера, определяют вектор развития индустрии в ближайшее время.

Гибридные архитектуры и новые «тяжеловесы» 0:15

Одним из главных событий стал выпуск модели Jamba от компании AI21 Labs. Это «первопроходец» в своем роде, использующий гибридную архитектуру: она сочетает слои Mamba (эволюция state-space моделей, способная эффективно обрабатывать длинные контексты) с классическими слоями внимания трансформеров.

Преимущества Jamba: По словам разработчиков, модель решает проблему «взрыва» требований к оперативной памяти при работе с длинными текстами, обеспечивая высокую пропускную способность.
Доступность: Модель распространяется под лицензией Apache 2.0.

Параллельно компания Databricks представила DBRX — открытую LLM, насчитывающую 132 миллиарда параметров. В архитектуре смеси экспертов (MoE) активно задействовано 36 миллиардов параметров, что позволяет модели демонстрировать выдающиеся результаты не только в понимании языка, но и в программировании и математике. Янник Килчер отмечает, что DBRX использует более мелкозернистый подход к экспертам (16 экспертов, 4 из которых выбираются для каждого токена), что, по данным компании, заметно улучшает качество ответов.

Новые бизнес-модели и «премиальный» открытый доступ 3:59

Компания Cohere выпустила CMD-R+, ориентированную на оптимизированную генерацию с поиском (RAG) и работу с инструментами. Эта модель доступна на 10 языках и представлена в формате «открытых весов» (open weights).

Бизнес-логика: Как полагает ведущий, это новая стратегия монетизации: исследователи могут бесплатно тестировать модель, но для коммерческого использования необходимо заключить договор с Cohere. По прогнозу Янника Килчера, разработчики надеются, что компании «подсядут» на этот инструментарий, что в будущем обеспечит поток платных клиентов.

Синтетические данные и контроль качества 6:24

Интересным трендом стало активное использование синтетических данных для обучения моделей. Проект Magic Lens от Google DeepMind — это система поиска изображений по естественным инструкциям, которая была создана преимущественно с использованием синтетики.

Космопедия (Cosmopedia): Проект на Hugging Face, пытающийся воспроизвести успех моделей Microsoft Phi (обученных на «учебниках») исключительно на синтетических данных. Килчер признался, что изначально ошибочно полагал, что Phi обучались на реальных текстах, тогда как на самом деле они уже использовали синтетику для достижения высокого качества при малом объеме данных.

Инструменты оценки и безопасности 8:49

Google DeepMind представила исследование Long-form Factuality и новый метод оценки SAFE (Safe Augmented Factuality Evaluator). Использование LLM-агентов для проверки фактов показало, что автоматизированная система согласуется с человеческой оценкой в 72% случаев, а в ситуациях, где есть разногласия, автоматика оказывается права в 76% случаев. Это, по мнению ведущего, может ознаменовать начало эры автоматизированной проверки фактов.

Также стоит упомянуть дискуссию вокруг модели Dolphin 2.8 Mistral 7B v0.2, которая позиционируется как «нецензурируемая». Килчер считает, что создание таких моделей полезно, так как ответственность за внедрение фильтров безопасности перекладывается на тех, кто непосредственно разворачивает систему (например, в специализированных медицинских или инженерных целях), вместо того чтобы слепо полагаться на «предохранители» компаний вроде OpenAI.

Другие значимые анонсы 11:14

Nvidia Latte 3D: Модель, способная генерировать текстурированные 3D-сетки по текстовому описанию всего за 400 миллисекунд.
Salesforce moai: Основополагающая модель для универсального прогнозирования временных рядов, пытающаяся объединить данные из разных доменов (от веба до электронной коммерции).
JetMoE: Исследование, показывающее, что можно достичь производительности уровня Llama 2 при затратах на обучение менее $100 000, что все еще является солидной суммой, но знаменует значительный прогресс в эффективности.

В завершение, ведущий отметил важность появления специализированных треков по RAG на конференции TREC 2024 и публикацию крупных наборов данных для OCR от Клемана Делонга, что, по его мнению, поможет решить давнюю проблему распознавания сложных документов.