Как Shopify внедряет ИИ: от очистки данных до дистилляции моделей и векторного поиска

SaaStr 799 38 мин 4 мин 26.04.2024
Главное

Внедрение искусственного интеллекта в крупный бизнес часто воспринимается как магическое решение, однако на практике это кропотливая инженерия, требующая пересмотра подходов к данным и корпоративной культуре. На конференции SaaStr управляющий партнер Glasswing Ventures Рина Сери и Руководитель ИИ-направления Shopify обсудили, как канадский e-commerce гигант трансформирует свои продукты и продажи с помощью ML-систем, и почему «чистота» данных важнее сложности алгоритмов.

🏗️ Фундамент ИИ: От инфраструктуры до глубокой очистки данных 1:33

По мнению Рины Сери, сегодня большинство компаний находятся на стадии «поверхностного интереса» к ИИ . Несмотря на обилие инициатив, лишь немногие, такие как Shopify или Klarna, успешно интегрировали генеративный ИИ в само ядро своего бизнеса . Для достижения реального эффекта компании должны сбалансировать три измерения: технологический стек, работу с данными и внутреннюю культуру.

Руководитель ИИ-направления Shopify утверждает, что работа с данными — это «верхушка айсберга» . Основное время инженеров уходит не на обучение моделей, а на сбор и очистку информации. Процесс обучения ML — это итеративный цикл проб и ошибок, где модель постоянно корректирует свои параметры, чтобы минимизировать разрыв между предсказанием и реальностью .

В контексте инфраструктуры эксперты выделили несколько ключевых моментов:

🧪 Культура экспериментов и риск «переобучения» 8:14

Одной из главных технических ловушек Руководитель ИИ-направления Shopify называет «переобучение» (overfitting) . Это ситуация, когда модель идеально запоминает обучающие примеры, но не может справиться с новыми данными. Чтобы этого избежать, в Shopify используют строгую валидацию на данных, которые модель никогда не видела .

Спикеры сошлись во мнении, что в эпоху доступности библиотек и предобученных моделей (LLM) возникла новая опасность: инженеры-непрофессионалы могут запускать системы, не понимая их ограничений . По словам гостя, это приводит к публичным скандалам, когда чат-боты обещают клиентам бесплатные услуги или товары, на которые компания не давала согласия .

Для бизнес-лидеров Руководитель ИИ-направления Shopify предлагает стратегию «стресс-тестирования» без погружения в код:

  1. Не нужно понимать, как работает механизм внимания (attention) в трансформерах .
  2. Нужно спрашивать: как метрика обучения соотносится с бизнес-целью (например, ростом объемов продаж)? .
  3. Качество данных важнее температуры (temperature) или других тонких настроек модели .

🛍️ Кейс Shopify: Релевантность поиска и «векторизация» 20:17

Shopify — одна из крупнейших e-commerce платформ в Северной Америке, где ключевым вопросом является поиск нужного товара среди миллионов позиций . Руководитель ИИ-направления Shopify объяснил, что компания перешла от простого поиска по ключевым словам к векторному представлению данных .

Этот процесс (векторизация или эмбеддинги) превращает каждое слово или изображение в точку в многомерном пространстве . В правильно обученной системе картинка кошки и слово «кот» окажутся в одной области пространства . Это позволяет ИИ понимать контекст: например, отличать «банк» как финансовую организацию от «банка» как стеклянной тары, анализируя соседние слова в предложении .

В Shopify ИИ используется для балансировки двух типов релевантности:

Руководитель ИИ-направления подчеркнул, что соотношение этих типов (например, 70/30) — это бизнес-решение, которое напрямую влияет на выручку (GMV) .

💰 Экономика моделей: LLM против специализированных решений 31:34

Использование топовых LLM (вроде GPT-4) напрямую для каждого поискового запроса пользователя — это «невероятно медленно и дорого» . Shopify решает эту проблему через дистилляцию (distillation) .

Суть метода:

Это позволяет получить высокую точность при значительно меньших затратах на вычислительные мощности . При этом Руководитель ИИ-направления Shopify предостерегает от динамического ценообразования в чистом виде, советуя вместо этого использовать ИИ для «динамических скидок», что более лояльно воспринимается клиентами .

🤖 Будущее: Автоматизация «скучной» работы 34:54

В финале дискуссии эксперты обсудили, можно ли автоматизировать работу самих дата-сайентистов. Руководитель ИИ-направления Shopify считает, что создание нейросетей «с нуля» уходит в прошлое . Сегодня главная задача дорогих специалистов — не писать код слоев сети, а выстраивать стратегии валидации данных.

В Shopify используют гибридный подход: ИИ находит потенциально важные примеры или ошибки в данных, а люди-эксперты курируют эти результаты . По мнению Рины Сери, девиз современного этапа внедрения ИИ — «доверяй, но проверяй» .

💬 Цитаты

«Данные — это один из тех стереотипных айсбергов, где большую часть времени вы тратите на их сбор и очистку.»

Руководитель ИИ-направления Shopify 06:40

«Вы никогда не захотите заниматься динамическим ценообразованием — используйте ИИ для динамических скидок.»

Руководитель ИИ-направления Shopify 29:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Дистилляция (Distillation)
Процесс обучения маленькой модели на ответах большой и сложной модели для экономии вычислительных ресурсов.
Векторизация / Эмбеддинги
Преобразование слов или изображений в наборы чисел (векторы), чтобы компьютер мог сравнивать их смысл математически.
Переобучение (Overfitting)
Ошибка, при которой модель слишком хорошо запоминает тренировочные данные, но не может работать с реальными новыми примерами.
📊 Цифры
⚖️ Другая сторона
Продукты и маркетинг Shopify LLM дистилляция моделей векторный поиск эмбеддинги