В мире корпоративного искусственного интеллекта наступает новая эра — переход от общих «рассуждающих» моделей к системам, обладающим исключительной фактологической точностью. На недавней конференции AI Dev 25 Шерон Чжоу, основательница и генеральный директор Lamini, вместе с Махди Годси из AMD, представили технологические решения, которые позволяют радикально снизить уровень галлюцинаций в LLM и эффективно запускать сверхмощные модели на «железе» от AMD.
🧠 Проблема галлюцинаций: почему модели «врут» и как это исправить 0:00
Шерон Чжоу, работавшая над докторской диссертацией под руководством Эндрю Ына в Стэнфорде, начала свое выступление с фундаментального вопроса: почему модели, обученные на всем интернете, совершают ошибки в простых фактах? По её словам, модели вроде Llama гарантированно видели в своих обучающих данных статью из Википедии о мосте Золотые Ворота, но при вопросе о конкретной дате восхождения на него некоего Дейва Агилара могут ответить неправильно .
Причина кроется в самой архитектуре обучения. Модели оптимизируются для минимизации «средней ошибки» по всему интернету. В результате они становятся «хороши во всем, но не идеальны ни в чем» . Когда модель не знает точного ответа, она сэмплирует наиболее вероятный следующий токен. Если ответом должен быть год, она выберет дату, близкую к истине (например, 1970 вместо правильного 1981), что в бизнесе недопустимо .
Чжоу подчеркивает:
- Для бизнеса ошибка в цифре выручки (например, 10 миллиардов вместо 100) критична.
- Галлюцинации возникают из-за работы модели на основе семантической близости, а не поиска точного факта.
- Решение заключается в переходе от вероятностного распределения к «дирак-функции» — когда у модели есть только один правильный вариант ответа и нулевая вероятность остальных .
👩👧👦 Технология «Mommy»: смесь экспертов памяти (MoME) 7:02
Для решения проблемы фактологической точности команда Lamini разработала архитектуру Mixture of Memory Experts (MoME), которую они ласково называют «Mommy» (Мамочка). Девиз проекта: «Mommy knows best» («Мама знает лучше») .
Основные технические особенности MoME:
- Интеграция фактов в веса: В отличие от RAG (поисково-дополненной генерации), где данные ищутся во внешней базе, MoME внедряет факты непосредственно в «память» модели через специальные адаптеры .
- Использование LoRA-адаптеров: Вместо изменения всей модели создаются небольшие дополнительные наборы весов («дополнительные клетки мозга»). Они эффективны, дешевы в хранении (размер в мегабайтах) и не увеличивают задержку (latency) при работе .
- Маршрутизация к экспертам: Система обучается направлять запрос к конкретному эксперту, который «специализируется» на данном факте. Например, один эксперт отвечает за общую беседу, другой — за физику, третий — за конкретные корпоративные данные .
По мнению Шерон Чжоу, такой подход позволяет достичь точности «в несколько девяток» (99.9...%), что превращает LLM из творческого собеседника в надежный инструмент корпоративной аналитики .
🛠️ Практика Fine-tuning: как создать качественный датасет 8:25
Шерон Чжоу выделила три главных принципа успешной дообучающей настройки (fine-tuning) для корпораций:
- Качество данных превыше количества: Мета-команда (разработчики Llama) обучает свои модели всего на 1% имеющихся данных, но делает это дважды. Для фактологической точности это критично: если вы подадите модели неверный факт, она «зазубрит» его как абсолютную истину .
- Объективность оценок (Evals): Важно иметь North Star — набор тестов, с которым согласны все заинтересованные стороны. Если люди в компании спорят, какой ответ правильный, модель будет в замешательстве .
- Быстрые итерации: Глава Lamini советует не загружать сразу гигабайты данных. Правильный подход — взять 20 репрезентативных примеров, добиться на них идеальной работы и затем масштабироваться .
Для автоматизации этого процесса Lamini использует так называемый «агентичный пайплайн». Вместо ручной разметки тысяч строк данных (как это делает Scale AI), используется LLM-конвейер, который генерирует тренировочные данные на основе схем баз данных и логов запросов . Чжоу называет такой подход «Vibes-based feedback» (фидбек на основе ощущений): эксперт просто объясняет модели правило «как человеку», и она сама генерирует и валидирует нужные примеры .
🥤 Кейс Colgate: от 30% до 90%+ точности в SQL 28:34
В качестве примера реального внедрения был приведен проект для компании Colgate. Задача заключалась в создании интерфейса «Text-to-SQL», чтобы сотрудники могли задавать вопросы корпоративной базе данных Snowflake на естественном языке .
Результаты внедрения:
- До использования Lamini: Точность на топовых моделях OpenAI с использованием промпт-инжиниринга составляла всего 30–40% из-за сложности бизнес-логики и расчетов.
- После дообучения: Точность радикально возросла, что позволило масштабировать доступ к данным со 200 экспертов до 30 000 сотрудников компании по всему миру .
- Модель: Использовалась сравнительно небольшая модель на 8 миллиардов параметров (SLM — Small Language Model), которая оказалась эффективнее гигантских общих моделей в этой узкой задаче .
🖥️ Мощности AMD: DeepSeek R1 на одном узле 44:28
Махди Годси из AMD представил аппаратную сторону вопроса. Главным героем выступления стал ускоритель AMD Instinct MI300X. Его ключевое преимущество — 192 ГБ памяти HBM3 на один GPU с высочайшей пропускной способностью .
По утверждению Годси, такие характеристики позволяют запускать модель DeepSeek R1 (671 миллиард параметров) на одном серверном узле. Кроме того, представитель AMD развеял миф о сложности работы с их платформой ROCm:
- Для работы в PyTorch не нужны «хаки», достаточно простой команды
pip install. - AMD активно сотрудничает с Hugging Face и разработчиками vLLM.
- После выхода DeepSeek R1 инженерам AMD потребовалось всего две недели, чтобы оптимизировать её работу на своем железе, увеличив скорость в 4 раза .
В конце презентации Махди продемонстрировал работу агентов, которые могут самостоятельно бронировать товары в корзине или писать код игр (например, «Змейки») прямо в VS Code, используя локально запущенные модели DeepSeek на GPU от AMD .