DeepSeek и архитектура «Mommy»: как AMD и Lamini меняют корпоративный ИИ

DeepLearning.AI 985 57 мин 4 мин 27.03.2025
Главное

В мире корпоративного искусственного интеллекта наступает новая эра — переход от общих «рассуждающих» моделей к системам, обладающим исключительной фактологической точностью. На недавней конференции AI Dev 25 Шерон Чжоу, основательница и генеральный директор Lamini, вместе с Махди Годси из AMD, представили технологические решения, которые позволяют радикально снизить уровень галлюцинаций в LLM и эффективно запускать сверхмощные модели на «железе» от AMD.

🧠 Проблема галлюцинаций: почему модели «врут» и как это исправить 0:00

Шерон Чжоу, работавшая над докторской диссертацией под руководством Эндрю Ына в Стэнфорде, начала свое выступление с фундаментального вопроса: почему модели, обученные на всем интернете, совершают ошибки в простых фактах? По её словам, модели вроде Llama гарантированно видели в своих обучающих данных статью из Википедии о мосте Золотые Ворота, но при вопросе о конкретной дате восхождения на него некоего Дейва Агилара могут ответить неправильно .

Причина кроется в самой архитектуре обучения. Модели оптимизируются для минимизации «средней ошибки» по всему интернету. В результате они становятся «хороши во всем, но не идеальны ни в чем» . Когда модель не знает точного ответа, она сэмплирует наиболее вероятный следующий токен. Если ответом должен быть год, она выберет дату, близкую к истине (например, 1970 вместо правильного 1981), что в бизнесе недопустимо .

Чжоу подчеркивает:

👩‍👧‍👦 Технология «Mommy»: смесь экспертов памяти (MoME) 7:02

Для решения проблемы фактологической точности команда Lamini разработала архитектуру Mixture of Memory Experts (MoME), которую они ласково называют «Mommy» (Мамочка). Девиз проекта: «Mommy knows best» («Мама знает лучше») .

Основные технические особенности MoME:

  1. Интеграция фактов в веса: В отличие от RAG (поисково-дополненной генерации), где данные ищутся во внешней базе, MoME внедряет факты непосредственно в «память» модели через специальные адаптеры .
  2. Использование LoRA-адаптеров: Вместо изменения всей модели создаются небольшие дополнительные наборы весов («дополнительные клетки мозга»). Они эффективны, дешевы в хранении (размер в мегабайтах) и не увеличивают задержку (latency) при работе .
  3. Маршрутизация к экспертам: Система обучается направлять запрос к конкретному эксперту, который «специализируется» на данном факте. Например, один эксперт отвечает за общую беседу, другой — за физику, третий — за конкретные корпоративные данные .

По мнению Шерон Чжоу, такой подход позволяет достичь точности «в несколько девяток» (99.9...%), что превращает LLM из творческого собеседника в надежный инструмент корпоративной аналитики .

🛠️ Практика Fine-tuning: как создать качественный датасет 8:25

Шерон Чжоу выделила три главных принципа успешной дообучающей настройки (fine-tuning) для корпораций:

Для автоматизации этого процесса Lamini использует так называемый «агентичный пайплайн». Вместо ручной разметки тысяч строк данных (как это делает Scale AI), используется LLM-конвейер, который генерирует тренировочные данные на основе схем баз данных и логов запросов . Чжоу называет такой подход «Vibes-based feedback» (фидбек на основе ощущений): эксперт просто объясняет модели правило «как человеку», и она сама генерирует и валидирует нужные примеры .

🥤 Кейс Colgate: от 30% до 90%+ точности в SQL 28:34

В качестве примера реального внедрения был приведен проект для компании Colgate. Задача заключалась в создании интерфейса «Text-to-SQL», чтобы сотрудники могли задавать вопросы корпоративной базе данных Snowflake на естественном языке .

Результаты внедрения:

🖥️ Мощности AMD: DeepSeek R1 на одном узле 44:28

Махди Годси из AMD представил аппаратную сторону вопроса. Главным героем выступления стал ускоритель AMD Instinct MI300X. Его ключевое преимущество — 192 ГБ памяти HBM3 на один GPU с высочайшей пропускной способностью .

По утверждению Годси, такие характеристики позволяют запускать модель DeepSeek R1 (671 миллиард параметров) на одном серверном узле. Кроме того, представитель AMD развеял миф о сложности работы с их платформой ROCm:

В конце презентации Махди продемонстрировал работу агентов, которые могут самостоятельно бронировать товары в корзине или писать код игр (например, «Змейки») прямо в VS Code, используя локально запущенные модели DeepSeek на GPU от AMD .


💬 Цитаты

«Модели оптимизированы для уменьшения средней ошибки по всему интернету. Они хороши во всем, но не идеальны ни в чем.»

Шерон Чжоу 03:45

«Для корпоративного ИИ галлюцинация в виде '10 миллиардов' вместо '100 миллиардов' выручки — это катастрофа.»

Шерон Чжоу 04:51

«AMD MI300X — одна из немногих сред, где вы можете запустить DeepSeek R1 с 671 млрд параметров на одном узле.»

Махди Годси 45:49
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Hallucination
Уверенная генерация моделью фактически неверной информации.
LoRA (Low-Rank Adaptation)
Метод эффективного дообучения моделей путем добавления небольшого числа обучаемых параметров.
ROCm
Открытая программная платформа AMD для вычислений на GPU, аналог NVIDIA CUDA.
HBM3
Высокоскоростная многослойная память с большой пропускной способностью, используемая в ускорителях.
Fine-tuning
Процесс дообучения предварительно обученной модели на специфическом наборе данных.
📊 Цифры
🗓 Хронология
  1. 2024 Запуск курса от Lamini и Эндрю Ына по дообучению LLM.
  2. Январь 2025 Релиз DeepSeek R1 и последующая оптимизация под AMD ROCm за 2 недели.
  3. Февраль 2025 Выступление на AI Dev о результатах использования MoME в Colgate.
⚖️ Другая сторона
Технологии и IT Lamini AMD MI300X DeepSeek R1 MoME Fine-tuning