Как Shopify внедряет ИИ: от очистки данных до дистилляции моделей и векторного поиска

Внедрение искусственного интеллекта в крупный бизнес часто воспринимается как магическое решение, однако на практике это кропотливая инженерия, требующая пересмотра подходов к данным и корпоративной культуре. На конференции SaaStr управляющий партнер Glasswing Ventures Рина Сери и Руководитель ИИ-направления Shopify обсудили, как канадский e-commerce гигант трансформирует свои продукты и продажи с помощью ML-систем, и почему «чистота» данных важнее сложности алгоритмов.

🏗️ Фундамент ИИ: От инфраструктуры до глубокой очистки данных 1:33

По мнению Рины Сери, сегодня большинство компаний находятся на стадии «поверхностного интереса» к ИИ . Несмотря на обилие инициатив, лишь немногие, такие как Shopify или Klarna, успешно интегрировали генеративный ИИ в само ядро своего бизнеса . Для достижения реального эффекта компании должны сбалансировать три измерения: технологический стек, работу с данными и внутреннюю культуру.

Руководитель ИИ-направления Shopify утверждает, что работа с данными — это «верхушка айсберга» . Основное время инженеров уходит не на обучение моделей, а на сбор и очистку информации. Процесс обучения ML — это итеративный цикл проб и ошибок, где модель постоянно корректирует свои параметры, чтобы минимизировать разрыв между предсказанием и реальностью .

В контексте инфраструктуры эксперты выделили несколько ключевых моментов:

Ресурсный голод: Для обучения глубоких моделей (Deep Learning) необходимы GPU. В последние годы наблюдается дефицит чипов вроде A100 или H100 .
Облако vs On-premise: Облачные платформы (AWS, GCP, Azure) удобны для спорадических нужд, но для постоянных нагрузок собственная инфраструктура часто обходится дешевле .
Проблема посредников: Использование моделей (например, OpenAI) через облачных посредников может увеличить задержку (latency) по сравнению с прямым обращением к API разработчика .

🧪 Культура экспериментов и риск «переобучения» 8:14

Одной из главных технических ловушек Руководитель ИИ-направления Shopify называет «переобучение» (overfitting) . Это ситуация, когда модель идеально запоминает обучающие примеры, но не может справиться с новыми данными. Чтобы этого избежать, в Shopify используют строгую валидацию на данных, которые модель никогда не видела .

Спикеры сошлись во мнении, что в эпоху доступности библиотек и предобученных моделей (LLM) возникла новая опасность: инженеры-непрофессионалы могут запускать системы, не понимая их ограничений . По словам гостя, это приводит к публичным скандалам, когда чат-боты обещают клиентам бесплатные услуги или товары, на которые компания не давала согласия .

Для бизнес-лидеров Руководитель ИИ-направления Shopify предлагает стратегию «стресс-тестирования» без погружения в код:

Не нужно понимать, как работает механизм внимания (attention) в трансформерах .
Нужно спрашивать: как метрика обучения соотносится с бизнес-целью (например, ростом объемов продаж)? .
Качество данных важнее температуры (temperature) или других тонких настроек модели .

🛍️ Кейс Shopify: Релевантность поиска и «векторизация» 20:17

Shopify — одна из крупнейших e-commerce платформ в Северной Америке, где ключевым вопросом является поиск нужного товара среди миллионов позиций . Руководитель ИИ-направления Shopify объяснил, что компания перешла от простого поиска по ключевым словам к векторному представлению данных .

Этот процесс (векторизация или эмбеддинги) превращает каждое слово или изображение в точку в многомерном пространстве . В правильно обученной системе картинка кошки и слово «кот» окажутся в одной области пространства . Это позволяет ИИ понимать контекст: например, отличать «банк» как финансовую организацию от «банка» как стеклянной тары, анализируя соседние слова в предложении .

В Shopify ИИ используется для балансировки двух типов релевантности:

Прямая релевантность: покупатель ищет ботинки и видит ботинки .
Дополнительная релевантность (cross-selling): покупатель ищет ботинки, а система предлагает носки или средства для ухода за кожей .

Руководитель ИИ-направления подчеркнул, что соотношение этих типов (например, 70/30) — это бизнес-решение, которое напрямую влияет на выручку (GMV) .

💰 Экономика моделей: LLM против специализированных решений 31:34

Использование топовых LLM (вроде GPT-4) напрямую для каждого поискового запроса пользователя — это «невероятно медленно и дорого» . Shopify решает эту проблему через дистилляцию (distillation) .

Суть метода:

Берется большая и мощная «коммодити-модель» (учитель).
Берется меньшая модель с открытым кодом (например, Llama 7B или Mistral).
Меньшую модель обучают мимикрировать под ответы большой модели на специфических данных компании .

Это позволяет получить высокую точность при значительно меньших затратах на вычислительные мощности . При этом Руководитель ИИ-направления Shopify предостерегает от динамического ценообразования в чистом виде, советуя вместо этого использовать ИИ для «динамических скидок», что более лояльно воспринимается клиентами .

🤖 Будущее: Автоматизация «скучной» работы 34:54

В финале дискуссии эксперты обсудили, можно ли автоматизировать работу самих дата-сайентистов. Руководитель ИИ-направления Shopify считает, что создание нейросетей «с нуля» уходит в прошлое . Сегодня главная задача дорогих специалистов — не писать код слоев сети, а выстраивать стратегии валидации данных.

В Shopify используют гибридный подход: ИИ находит потенциально важные примеры или ошибки в данных, а люди-эксперты курируют эти результаты . По мнению Рины Сери, девиз современного этапа внедрения ИИ — «доверяй, но проверяй» .