Внедрение искусственного интеллекта в крупный бизнес часто воспринимается как магическое решение, однако на практике это кропотливая инженерия, требующая пересмотра подходов к данным и корпоративной культуре. На конференции SaaStr управляющий партнер Glasswing Ventures Рина Сери и Руководитель ИИ-направления Shopify обсудили, как канадский e-commerce гигант трансформирует свои продукты и продажи с помощью ML-систем, и почему «чистота» данных важнее сложности алгоритмов.
🏗️ Фундамент ИИ: От инфраструктуры до глубокой очистки данных 1:33
По мнению Рины Сери, сегодня большинство компаний находятся на стадии «поверхностного интереса» к ИИ . Несмотря на обилие инициатив, лишь немногие, такие как Shopify или Klarna, успешно интегрировали генеративный ИИ в само ядро своего бизнеса . Для достижения реального эффекта компании должны сбалансировать три измерения: технологический стек, работу с данными и внутреннюю культуру.
Руководитель ИИ-направления Shopify утверждает, что работа с данными — это «верхушка айсберга» . Основное время инженеров уходит не на обучение моделей, а на сбор и очистку информации. Процесс обучения ML — это итеративный цикл проб и ошибок, где модель постоянно корректирует свои параметры, чтобы минимизировать разрыв между предсказанием и реальностью .
В контексте инфраструктуры эксперты выделили несколько ключевых моментов:
- Ресурсный голод: Для обучения глубоких моделей (Deep Learning) необходимы GPU. В последние годы наблюдается дефицит чипов вроде A100 или H100 .
- Облако vs On-premise: Облачные платформы (AWS, GCP, Azure) удобны для спорадических нужд, но для постоянных нагрузок собственная инфраструктура часто обходится дешевле .
- Проблема посредников: Использование моделей (например, OpenAI) через облачных посредников может увеличить задержку (latency) по сравнению с прямым обращением к API разработчика .
🧪 Культура экспериментов и риск «переобучения» 8:14
Одной из главных технических ловушек Руководитель ИИ-направления Shopify называет «переобучение» (overfitting) . Это ситуация, когда модель идеально запоминает обучающие примеры, но не может справиться с новыми данными. Чтобы этого избежать, в Shopify используют строгую валидацию на данных, которые модель никогда не видела .
Спикеры сошлись во мнении, что в эпоху доступности библиотек и предобученных моделей (LLM) возникла новая опасность: инженеры-непрофессионалы могут запускать системы, не понимая их ограничений . По словам гостя, это приводит к публичным скандалам, когда чат-боты обещают клиентам бесплатные услуги или товары, на которые компания не давала согласия .
Для бизнес-лидеров Руководитель ИИ-направления Shopify предлагает стратегию «стресс-тестирования» без погружения в код:
- Не нужно понимать, как работает механизм внимания (attention) в трансформерах .
- Нужно спрашивать: как метрика обучения соотносится с бизнес-целью (например, ростом объемов продаж)? .
- Качество данных важнее температуры (temperature) или других тонких настроек модели .
🛍️ Кейс Shopify: Релевантность поиска и «векторизация» 20:17
Shopify — одна из крупнейших e-commerce платформ в Северной Америке, где ключевым вопросом является поиск нужного товара среди миллионов позиций . Руководитель ИИ-направления Shopify объяснил, что компания перешла от простого поиска по ключевым словам к векторному представлению данных .
Этот процесс (векторизация или эмбеддинги) превращает каждое слово или изображение в точку в многомерном пространстве . В правильно обученной системе картинка кошки и слово «кот» окажутся в одной области пространства . Это позволяет ИИ понимать контекст: например, отличать «банк» как финансовую организацию от «банка» как стеклянной тары, анализируя соседние слова в предложении .
В Shopify ИИ используется для балансировки двух типов релевантности:
- Прямая релевантность: покупатель ищет ботинки и видит ботинки .
- Дополнительная релевантность (cross-selling): покупатель ищет ботинки, а система предлагает носки или средства для ухода за кожей .
Руководитель ИИ-направления подчеркнул, что соотношение этих типов (например, 70/30) — это бизнес-решение, которое напрямую влияет на выручку (GMV) .
💰 Экономика моделей: LLM против специализированных решений 31:34
Использование топовых LLM (вроде GPT-4) напрямую для каждого поискового запроса пользователя — это «невероятно медленно и дорого» . Shopify решает эту проблему через дистилляцию (distillation) .
Суть метода:
- Берется большая и мощная «коммодити-модель» (учитель).
- Берется меньшая модель с открытым кодом (например, Llama 7B или Mistral).
- Меньшую модель обучают мимикрировать под ответы большой модели на специфических данных компании .
Это позволяет получить высокую точность при значительно меньших затратах на вычислительные мощности . При этом Руководитель ИИ-направления Shopify предостерегает от динамического ценообразования в чистом виде, советуя вместо этого использовать ИИ для «динамических скидок», что более лояльно воспринимается клиентами .
🤖 Будущее: Автоматизация «скучной» работы 34:54
В финале дискуссии эксперты обсудили, можно ли автоматизировать работу самих дата-сайентистов. Руководитель ИИ-направления Shopify считает, что создание нейросетей «с нуля» уходит в прошлое . Сегодня главная задача дорогих специалистов — не писать код слоев сети, а выстраивать стратегии валидации данных.
В Shopify используют гибридный подход: ИИ находит потенциально важные примеры или ошибки в данных, а люди-эксперты курируют эти результаты . По мнению Рины Сери, девиз современного этапа внедрения ИИ — «доверяй, но проверяй» .