# Как Shopify внедряет ИИ: от очистки данных до дистилляции моделей и векторного поиска

Источник: https://www.youtube.com/watch?v=S2R4LaWyGPU
Канал: SaaStr
Опубликовано: 26.04.2024

---

Внедрение искусственного интеллекта в крупный бизнес часто воспринимается как магическое решение, однако на практике это кропотливая инженерия, требующая пересмотра подходов к данным и корпоративной культуре. На конференции SaaStr управляющий партнер Glasswing Ventures Рина Сери и Руководитель ИИ-направления Shopify обсудили, как канадский e-commerce гигант трансформирует свои продукты и продажи с помощью ML-систем, и почему «чистота» данных важнее сложности алгоритмов.

## 🏗️ Фундамент ИИ: От инфраструктуры до глубокой очистки данных
[[JUMP:01:33]]

По мнению Рины Сери, сегодня большинство компаний находятся на стадии «поверхностного интереса» к ИИ [02:00]. Несмотря на обилие инициатив, лишь немногие, такие как Shopify или Klarna, успешно интегрировали генеративный ИИ в само ядро своего бизнеса [03:10]. Для достижения реального эффекта компании должны сбалансировать три измерения: технологический стек, работу с данными и внутреннюю культуру.

Руководитель ИИ-направления Shopify утверждает, что работа с данными — это «верхушка айсберга» [06:40]. Основное время инженеров уходит не на обучение моделей, а на сбор и очистку информации. Процесс обучения ML — это итеративный цикл проб и ошибок, где модель постоянно корректирует свои параметры, чтобы минимизировать разрыв между предсказанием и реальностью [07:50].

В контексте инфраструктуры эксперты выделили несколько ключевых моментов:

*   **Ресурсный голод:** Для обучения глубоких моделей (Deep Learning) необходимы GPU. В последние годы наблюдается дефицит чипов вроде A100 или H100 [15:47].
*   **Облако vs On-premise:** Облачные платформы (AWS, GCP, Azure) удобны для спорадических нужд, но для постоянных нагрузок собственная инфраструктура часто обходится дешевле [13:33].
*   **Проблема посредников:** Использование моделей (например, OpenAI) через облачных посредников может увеличить задержку (latency) по сравнению с прямым обращением к API разработчика [15:06].

## 🧪 Культура экспериментов и риск «переобучения»
[[JUMP:08:14]]

Одной из главных технических ловушек Руководитель ИИ-направления Shopify называет «переобучение» (overfitting) [08:14]. Это ситуация, когда модель идеально запоминает обучающие примеры, но не может справиться с новыми данными. Чтобы этого избежать, в Shopify используют строгую валидацию на данных, которые модель никогда не видела [09:09]. 

Спикеры сошлись во мнении, что в эпоху доступности библиотек и предобученных моделей (LLM) возникла новая опасность: инженеры-непрофессионалы могут запускать системы, не понимая их ограничений [17:22]. По словам гостя, это приводит к публичным скандалам, когда чат-боты обещают клиентам бесплатные услуги или товары, на которые компания не давала согласия [17:35]. 

Для бизнес-лидеров Руководитель ИИ-направления Shopify предлагает стратегию «стресс-тестирования» без погружения в код:

1. Не нужно понимать, как работает механизм внимания (attention) в трансформерах [19:24].
2. Нужно спрашивать: как метрика обучения соотносится с бизнес-целью (например, ростом объемов продаж)? [20:00].
3. Качество данных важнее температуры (temperature) или других тонких настроек модели [19:35].

## 🛍️ Кейс Shopify: Релевантность поиска и «векторизация»
[[JUMP:20:17]]

Shopify — одна из крупнейших e-commerce платформ в Северной Америке, где ключевым вопросом является поиск нужного товара среди миллионов позиций [20:29]. Руководитель ИИ-направления Shopify объяснил, что компания перешла от простого поиска по ключевым словам к векторному представлению данных [26:15]. 

Этот процесс (векторизация или эмбеддинги) превращает каждое слово или изображение в точку в многомерном пространстве [27:23]. В правильно обученной системе картинка кошки и слово «кот» окажутся в одной области пространства [28:15]. Это позволяет ИИ понимать контекст: например, отличать «банк» как финансовую организацию от «банка» как стеклянной тары, анализируя соседние слова в предложении [28:40].

В Shopify ИИ используется для балансировки двух типов релевантности:

*   **Прямая релевантность:** покупатель ищет ботинки и видит ботинки [22:56].
*   **Дополнительная релевантность (cross-selling):** покупатель ищет ботинки, а система предлагает носки или средства для ухода за кожей [23:09].

Руководитель ИИ-направления подчеркнул, что соотношение этих типов (например, 70/30) — это бизнес-решение, которое напрямую влияет на выручку (GMV) [23:49].

## 💰 Экономика моделей: LLM против специализированных решений
[[JUMP:31:34]]

Использование топовых LLM (вроде GPT-4) напрямую для каждого поискового запроса пользователя — это «невероятно медленно и дорого» [32:13]. Shopify решает эту проблему через **дистилляцию** (distillation) [32:40].

Суть метода:

*   Берется большая и мощная «коммодити-модель» (учитель).
*   Берется меньшая модель с открытым кодом (например, Llama 7B или Mistral).
*   Меньшую модель обучают мимикрировать под ответы большой модели на специфических данных компании [34:28].

Это позволяет получить высокую точность при значительно меньших затратах на вычислительные мощности [31:05]. При этом Руководитель ИИ-направления Shopify предостерегает от динамического ценообразования в чистом виде, советуя вместо этого использовать ИИ для «динамических скидок», что более лояльно воспринимается клиентами [29:45].

## 🤖 Будущее: Автоматизация «скучной» работы
[[JUMP:34:54]]

В финале дискуссии эксперты обсудили, можно ли автоматизировать работу самих дата-сайентистов. Руководитель ИИ-направления Shopify считает, что создание нейросетей «с нуля» уходит в прошлое [37:44]. Сегодня главная задача дорогих специалистов — не писать код слоев сети, а выстраивать стратегии валидации данных.

В Shopify используют гибридный подход: ИИ находит потенциально важные примеры или ошибки в данных, а люди-эксперты курируют эти результаты [37:18]. По мнению Рины Сери, девиз современного этапа внедрения ИИ — «доверяй, но проверяй» [37:55].