Янник Килчер: «Jamba, DBRX и эра синтетических данных»

Yannic Kilcher 25,8 тыс. 27 мин 3 мин 13.04.2024
Главное

Обзор последних новинок в мире ML: от гибридных моделей до новых стандартов оценки 0:00

Последние две недели стали крайне насыщенными для сообщества машинного обучения: разработчики представили ряд значимых моделей, новых архитектур и подходов к обучению. В центре внимания оказались гибридные решения, объединяющие лучшие качества трансформеров и состояний пространства (SSM), а также успехи в области синтетических данных и автоматизированного тестирования. В этом обзоре мы рассмотрим ключевые анонсы, которые, по мнению автора видео Янника Килчера, определяют вектор развития индустрии в ближайшее время.

Гибридные архитектуры и новые «тяжеловесы» 0:15

Одним из главных событий стал выпуск модели Jamba от компании AI21 Labs. Это «первопроходец» в своем роде, использующий гибридную архитектуру: она сочетает слои Mamba (эволюция state-space моделей, способная эффективно обрабатывать длинные контексты) с классическими слоями внимания трансформеров.

Параллельно компания Databricks представила DBRX — открытую LLM, насчитывающую 132 миллиарда параметров. В архитектуре смеси экспертов (MoE) активно задействовано 36 миллиардов параметров, что позволяет модели демонстрировать выдающиеся результаты не только в понимании языка, но и в программировании и математике. Янник Килчер отмечает, что DBRX использует более мелкозернистый подход к экспертам (16 экспертов, 4 из которых выбираются для каждого токена), что, по данным компании, заметно улучшает качество ответов.

Новые бизнес-модели и «премиальный» открытый доступ 3:59

Компания Cohere выпустила CMD-R+, ориентированную на оптимизированную генерацию с поиском (RAG) и работу с инструментами. Эта модель доступна на 10 языках и представлена в формате «открытых весов» (open weights).

Синтетические данные и контроль качества 6:24

Интересным трендом стало активное использование синтетических данных для обучения моделей. Проект Magic Lens от Google DeepMind — это система поиска изображений по естественным инструкциям, которая была создана преимущественно с использованием синтетики.

Инструменты оценки и безопасности 8:49

Google DeepMind представила исследование Long-form Factuality и новый метод оценки SAFE (Safe Augmented Factuality Evaluator). Использование LLM-агентов для проверки фактов показало, что автоматизированная система согласуется с человеческой оценкой в 72% случаев, а в ситуациях, где есть разногласия, автоматика оказывается права в 76% случаев. Это, по мнению ведущего, может ознаменовать начало эры автоматизированной проверки фактов.

Также стоит упомянуть дискуссию вокруг модели Dolphin 2.8 Mistral 7B v0.2, которая позиционируется как «нецензурируемая». Килчер считает, что создание таких моделей полезно, так как ответственность за внедрение фильтров безопасности перекладывается на тех, кто непосредственно разворачивает систему (например, в специализированных медицинских или инженерных целях), вместо того чтобы слепо полагаться на «предохранители» компаний вроде OpenAI.

Другие значимые анонсы 11:14

В завершение, ведущий отметил важность появления специализированных треков по RAG на конференции TREC 2024 и публикацию крупных наборов данных для OCR от Клемана Делонга, что, по его мнению, поможет решить давнюю проблему распознавания сложных документов.

💬 Цитаты

«Журналисты не понимают, что вопрос о том, обучалась ли модель на защищенных авторским правом материалах, бессмыслен, и любой ответ — просто случайный шум.»

Янник Килчер 03:45

«Эпоха проверки фактов на основе LLM, возможно, началась.»

Янник Килчер 10:08
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Mamba
Архитектура нейронных сетей, основанная на моделях состояний пространства (SSM), альтернатива трансформерам для работы с длинным контекстом.
MoE (Mixture of Experts)
Архитектура, в которой для обработки каждого входа активируется лишь часть параметров модели (эксперты), что экономит вычислительные ресурсы.
RAG (Retrieval Augmented Generation)
Технология, позволяющая модели обращаться к внешним базам знаний перед генерацией ответа.
Open weights
Модель, веса которой открыты для скачивания, но условия использования могут накладывать коммерческие ограничения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Jamba CMD-R+ DBRX LLM моделирование