# DeepSeek и архитектура «Mommy»: как AMD и Lamini меняют корпоративный ИИ

Источник: https://www.youtube.com/watch?v=MohMkvTRjjA
Канал: DeepLearning.AI
Опубликовано: 27.03.2025

---

В мире корпоративного искусственного интеллекта наступает новая эра — переход от общих «рассуждающих» моделей к системам, обладающим исключительной фактологической точностью. На недавней конференции AI Dev 25 Шерон Чжоу, основательница и генеральный директор Lamini, вместе с Махди Годси из AMD, представили технологические решения, которые позволяют радикально снизить уровень галлюцинаций в LLM и эффективно запускать сверхмощные модели на «железе» от AMD.

## 🧠 Проблема галлюцинаций: почему модели «врут» и как это исправить
[[JUMP:00:00]]

Шерон Чжоу, работавшая над докторской диссертацией под руководством Эндрю Ына в Стэнфорде, начала свое выступление с фундаментального вопроса: почему модели, обученные на всем интернете, совершают ошибки в простых фактах? [00:13] По её словам, модели вроде Llama гарантированно видели в своих обучающих данных статью из Википедии о мосте Золотые Ворота, но при вопросе о конкретной дате восхождения на него некоего Дейва Агилара могут ответить неправильно [02:50].

Причина кроется в самой архитектуре обучения. Модели оптимизируются для минимизации «средней ошибки» по всему интернету. В результате они становятся «хороши во всем, но не идеальны ни в чем» [03:45]. Когда модель не знает точного ответа, она сэмплирует наиболее вероятный следующий токен. Если ответом должен быть год, она выберет дату, близкую к истине (например, 1970 вместо правильного 1981), что в бизнесе недопустимо [04:51]. 

Чжоу подчеркивает:

*   Для бизнеса ошибка в цифре выручки (например, 10 миллиардов вместо 100) критична.
*   Галлюцинации возникают из-за работы модели на основе семантической близости, а не поиска точного факта.
*   Решение заключается в переходе от вероятностного распределения к «дирак-функции» — когда у модели есть только один правильный вариант ответа и нулевая вероятность остальных [06:09].

## 👩‍👧‍👦 Технология «Mommy»: смесь экспертов памяти (MoME)
[[JUMP:07:02]]

Для решения проблемы фактологической точности команда Lamini разработала архитектуру **Mixture of Memory Experts (MoME)**, которую они ласково называют «Mommy» (Мамочка). Девиз проекта: «Mommy knows best» («Мама знает лучше») [07:02].

Основные технические особенности MoME:

1.  **Интеграция фактов в веса:** В отличие от RAG (поисково-дополненной генерации), где данные ищутся во внешней базе, MoME внедряет факты непосредственно в «память» модели через специальные адаптеры [07:16].
2.  **Использование LoRA-адаптеров:** Вместо изменения всей модели создаются небольшие дополнительные наборы весов («дополнительные клетки мозга»). Они эффективны, дешевы в хранении (размер в мегабайтах) и не увеличивают задержку (latency) при работе [22:07].
3.  **Маршрутизация к экспертам:** Система обучается направлять запрос к конкретному эксперту, который «специализируется» на данном факте. Например, один эксперт отвечает за общую беседу, другой — за физику, третий — за конкретные корпоративные данные [23:49].

По мнению Шерон Чжоу, такой подход позволяет достичь точности «в несколько девяток» (99.9...%), что превращает LLM из творческого собеседника в надежный инструмент корпоративной аналитики [01:06].

## 🛠️ Практика Fine-tuning: как создать качественный датасет
[[JUMP:08:25]]

Шерон Чжоу выделила три главных принципа успешной дообучающей настройки (fine-tuning) для корпораций:

*   **Качество данных превыше количества:** Мета-команда (разработчики Llama) обучает свои модели всего на 1% имеющихся данных, но делает это дважды. Для фактологической точности это критично: если вы подадите модели неверный факт, она «зазубрит» его как абсолютную истину [08:53].
*   **Объективность оценок (Evals):** Важно иметь North Star — набор тестов, с которым согласны все заинтересованные стороны. Если люди в компании спорят, какой ответ правильный, модель будет в замешательстве [11:16].
*   **Быстрые итерации:** Глава Lamini советует не загружать сразу гигабайты данных. Правильный подход — взять 20 репрезентативных примеров, добиться на них идеальной работы и затем масштабироваться [12:10].

Для автоматизации этого процесса Lamini использует так называемый «агентичный пайплайн». Вместо ручной разметки тысяч строк данных (как это делает Scale AI), используется LLM-конвейер, который генерирует тренировочные данные на основе схем баз данных и логов запросов [13:02]. Чжоу называет такой подход **«Vibes-based feedback»** (фидбек на основе ощущений): эксперт просто объясняет модели правило «как человеку», и она сама генерирует и валидирует нужные примеры [15:17].

## 🥤 Кейс Colgate: от 30% до 90%+ точности в SQL
[[JUMP:28:34]]

В качестве примера реального внедрения был приведен проект для компании Colgate. Задача заключалась в создании интерфейса «Text-to-SQL», чтобы сотрудники могли задавать вопросы корпоративной базе данных Snowflake на естественном языке [28:34].

Результаты внедрения:

*   **До использования Lamini:** Точность на топовых моделях OpenAI с использованием промпт-инжиниринга составляла всего 30–40% из-за сложности бизнес-логики и расчетов.
*   **После дообучения:** Точность радикально возросла, что позволило масштабировать доступ к данным со 200 экспертов до 30 000 сотрудников компании по всему миру [29:27].
*   **Модель:** Использовалась сравнительно небольшая модель на 8 миллиардов параметров (SLM — Small Language Model), которая оказалась эффективнее гигантских общих моделей в этой узкой задаче [35:00].

## 🖥️ Мощности AMD: DeepSeek R1 на одном узле
[[JUMP:44:28]]

Махди Годси из AMD представил аппаратную сторону вопроса. Главным героем выступления стал ускоритель **AMD Instinct MI300X**. Его ключевое преимущество — 192 ГБ памяти HBM3 на один GPU с высочайшей пропускной способностью [45:21].

По утверждению Годси, такие характеристики позволяют запускать модель **DeepSeek R1** (671 миллиард параметров) на одном серверном узле. Кроме того, представитель AMD развеял миф о сложности работы с их платформой ROCm:

*   Для работы в PyTorch не нужны «хаки», достаточно простой команды `pip install` [46:30].
*   AMD активно сотрудничает с Hugging Face и разработчиками vLLM.
*   После выхода DeepSeek R1 инженерам AMD потребовалось всего две недели, чтобы оптимизировать её работу на своем железе, увеличив скорость в 4 раза [47:54].

В конце презентации Махди продемонстрировал работу агентов, которые могут самостоятельно бронировать товары в корзине или писать код игр (например, «Змейки») прямо в VS Code, используя локально запущенные модели DeepSeek на GPU от AMD [52:19].

---