Как Weights & Biases наводит порядок в хаосе машинного обучения и LLM

Лукас Бивальд, сооснователь компании Weights & Biases, прошел путь от исследователя в лаборатории Дафны Коллер до создания одного из самых востребованных инструментов в экосистеме машинного обучения. В интервью Крейгу Смиту для подкаста Eye on AI Бивальд рассказал, как его компания помогает инженерам справляться с хаосом в данных, почему «промпт-инжиниринг» меняет классический ML и почему прозрачность цепочки данных (data lineage) становится критически важной в эпоху госрегулирования ИИ.

🛠 От разметки данных к управлению экспериментами: путь Лукаса Бивальда 2:42

Лукас Бивальд начал заниматься нейронными сетями еще в середине 2000-х в Стэнфорде, работая над задачами обработки естественного языка (NLP) . Его карьера прошла через Yahoo и стартап Powerset (позже ставший частью Microsoft Bing), что привело его к созданию компании CrowdFlower (позже Figure Eight) в 2007 году .

История CrowdFlower примечательна несколькими фактами:

Упущенная возможность: Бивальд вспоминает, как Фей-Фей Ли обращалась к нему за помощью в создании ImageNet, но он отказал, так как в то время фокусировался на коммерческих заказчиках, считая академические проекты слишком сложными в плане требований .
Эволюция данных: Компания начинала как агрегатор для Mechanical Turk, но со временем стала крупнейшим игроком в сфере профессиональной разметки данных, перейдя от текста к изображениям .
Экзит: В 2018–2019 годах Figure Eight была продана австралийской компании Appen .

Накопленный опыт показал Бивальду новую проблему: компаниям не хватает инструментов для управления «остальной частью» процесса обучения. Это привело к созданию Weights & Biases (W&B) — платформы, ориентированной не на топ-менеджмент, а непосредственно на инженеров и исследователей . Название компании отсылает к коэффициентам внутри нейронной сети — весам (weights) и смещениям (biases), что подчеркивает глубокую техническую экспертизу продукта .

📊 Weights & Biases: решение проблемы «черного ящика» 14:30

Weights & Biases позиционируется как набор инструментов, сопровождающих модель от первой спецификации до развертывания в продакшене . Бивальд подчеркивает, что их цель — не заменить существующую инфраструктуру (например, поставщиков GPU), а интегрироваться во все популярные системы и фреймворки .

Основные функции платформы включают в себя:

Отслеживание экспериментов: Автоматическая фиксация всех гиперпараметров, метрик и версий кода . По словам Бивальда, это критически важно, так как в отличие от обычной разработки ПО, создание ИИ — это всегда серия экспериментов, где большая часть кода идет «в корзину», а реальную ценность представляют накопленные знания .
Визуализация: Инструменты W&B позволяют легко строить кривые потерь (loss curves) и визуализировать результаты распознавания текста или изображений . Инженеры часто сталкиваются с тем, что данные после токенизации становятся нечитаемыми для человека; W&B транслирует их обратно в понятный вид .
Data Lineage (Происхождение данных): Система отслеживает, на каких данных обучалась модель, какие преобразования и аугментации применялись .

⚖️ Регулирование и право на «забвение» для нейросетей 18:36

Одной из самых горячих тем обсуждения стала роль инструментов MLOps в соблюдении законодательства, в частности европейского GDPR. Бивальд отмечает, что пользователи имеют право требовать удаления своих данных из обучающих выборок .

Позиция Лукаса Бивальда по вопросам комплаенса:

Сложность удаления: Бивальд скептически относится к заявлениям о том, что модель можно заставить «забыть» конкретные данные без полной перетренировки . Он рекомендует изначально исключать спорный контент из выборки.
Прозрачность для регулятора: Хотя требования США в области ИИ пока остаются туманными и «пугающими», Бивальд уверен, что отчеты, которые W&B генерирует для внутренней эффективности компаний, — это именно то, что в будущем потребуют государственные регуляторы .
Авторское право: Инструменты W&B могут доказать отсутствие защищенного копирайтом материала или синтетических данных в обучающем сете, что становится важным аргументом в судебных спорах .

🔄 Мониторинг в продакшене: почему модели «ломаются» 31:34

Бивальд утверждает, что в реальном мире модели редко выходят из строя из-за сложных академических причин вроде «дрейфа данных» (data drift). Чаще всего виной становится человеческий фактор или изменения в «апстрим» (upstream) системах .

В качестве примера он привел случай из практики в Yahoo: команда поисковой выдачи использовала данные от команды по борьбе со спамом . Когда «антиспамщики» обновили свою модель, сделав её более чувствительной, оценки спамности выросли. Поисковый алгоритм, не зная об изменениях, начал массово скрывать релевантные сайты, посчитав их подозрительными . Мониторинг W&B позволяет вовремя заметить такие аномалии в распределении выходных данных и отправить уведомление инженеру .

🧪 Будущее: Промпт-инжиниринг и LLM-агенты 30:04

За последние два года индустрия пережила шок из-за взрывного роста больших языковых моделей (LLM). Бивальд отмечает, что классическое машинное обучение дополняется, а иногда и заменяется промпт-инжинирингом .

В Weights & Biases адаптировали платформу для поддержки новых рабочих процессов:

Трассировка промптов: Каждое изменение в текстовом запросе теперь может считаться отдельным экспериментом .
Цепочки агентов: W&B отслеживает работу сложных систем, где одна LLM автоматически создает промпты для другой, помогая понять, на каком этапе «цепочки» произошел сбой .
RLHF против RLAIF: Обсуждая обучение с подкреплением на основе отзывов людей (RLHF), Бивальд выразил мнение, что пока люди справляются с задачами оценки качества лучше алгоритмов, человеческий вклад будет необходим . Однако он признает, что автоматизация этого процесса (RLAIF) неизбежна по мере усложнения задач .

В завершение беседы Лукас Бивальд подчеркнул свое нежелание продавать Weights & Biases крупным игрокам вроде AWS или Google. Его цель — сохранить независимость компании, чтобы иметь возможность интегрироваться с любыми облачными провайдерами и инструментами (Snowflake, Databricks), обеспечивая клиентам гибкость выбора .