# Как Weights & Biases наводит порядок в хаосе машинного обучения и LLM

Источник: https://www.youtube.com/watch?v=7XjQ4rg07_s
Канал: Eye on AI
Опубликовано: 09.06.2024

---

Лукас Бивальд, сооснователь компании Weights & Biases, прошел путь от исследователя в лаборатории Дафны Коллер до создания одного из самых востребованных инструментов в экосистеме машинного обучения. В интервью Крейгу Смиту для подкаста Eye on AI Бивальд рассказал, как его компания помогает инженерам справляться с хаосом в данных, почему «промпт-инжиниринг» меняет классический ML и почему прозрачность цепочки данных (data lineage) становится критически важной в эпоху госрегулирования ИИ.

## 🛠 От разметки данных к управлению экспериментами: путь Лукаса Бивальда
[[JUMP:02:42]]

Лукас Бивальд начал заниматься нейронными сетями еще в середине 2000-х в Стэнфорде, работая над задачами обработки естественного языка (NLP) [02:55]. Его карьера прошла через Yahoo и стартап Powerset (позже ставший частью Microsoft Bing), что привело его к созданию компании CrowdFlower (позже Figure Eight) в 2007 году [03:48].

История CrowdFlower примечательна несколькими фактами:

*   **Упущенная возможность:** Бивальд вспоминает, как Фей-Фей Ли обращалась к нему за помощью в создании ImageNet, но он отказал, так как в то время фокусировался на коммерческих заказчиках, считая академические проекты слишком сложными в плане требований [05:31].
*   **Эволюция данных:** Компания начинала как агрегатор для Mechanical Turk, но со временем стала крупнейшим игроком в сфере профессиональной разметки данных, перейдя от текста к изображениям [06:12].
*   **Экзит:** В 2018–2019 годах Figure Eight была продана австралийской компании Appen [04:29].

Накопленный опыт показал Бивальду новую проблему: компаниям не хватает инструментов для управления «остальной частью» процесса обучения. Это привело к созданию Weights & Biases (W&B) — платформы, ориентированной не на топ-менеджмент, а непосредственно на инженеров и исследователей [13:20]. Название компании отсылает к коэффициентам внутри нейронной сети — весам (weights) и смещениям (biases), что подчеркивает глубокую техническую экспертизу продукта [12:40].

## 📊 Weights & Biases: решение проблемы «черного ящика»
[[JUMP:14:30]]

Weights & Biases позиционируется как набор инструментов, сопровождающих модель от первой спецификации до развертывания в продакшене [14:46]. Бивальд подчеркивает, что их цель — не заменить существующую инфраструктуру (например, поставщиков GPU), а интегрироваться во все популярные системы и фреймворки [15:12].

Основные функции платформы включают в себя:

*   **Отслеживание экспериментов:** Автоматическая фиксация всех гиперпараметров, метрик и версий кода [25:35]. По словам Бивальда, это критически важно, так как в отличие от обычной разработки ПО, создание ИИ — это всегда серия экспериментов, где большая часть кода идет «в корзину», а реальную ценность представляют накопленные знания [25:49].
*   **Визуализация:** Инструменты W&B позволяют легко строить кривые потерь (loss curves) и визуализировать результаты распознавания текста или изображений [17:45]. Инженеры часто сталкиваются с тем, что данные после токенизации становятся нечитаемыми для человека; W&B транслирует их обратно в понятный вид [18:10].
*   **Data Lineage (Происхождение данных):** Система отслеживает, на каких данных обучалась модель, какие преобразования и аугментации применялись [16:03].

## ⚖️ Регулирование и право на «забвение» для нейросетей
[[JUMP:18:36]]

Одной из самых горячих тем обсуждения стала роль инструментов MLOps в соблюдении законодательства, в частности европейского GDPR. Бивальд отмечает, что пользователи имеют право требовать удаления своих данных из обучающих выборок [18:50].

Позиция Лукаса Бивальда по вопросам комплаенса:

1.  **Сложность удаления:** Бивальд скептически относится к заявлениям о том, что модель можно заставить «забыть» конкретные данные без полной перетренировки [21:59]. Он рекомендует изначально исключать спорный контент из выборки.
2.  **Прозрачность для регулятора:** Хотя требования США в области ИИ пока остаются туманными и «пугающими», Бивальд уверен, что отчеты, которые W&B генерирует для внутренней эффективности компаний, — это именно то, что в будущем потребуют государственные регуляторы [23:36].
3.  **Авторское право:** Инструменты W&B могут доказать отсутствие защищенного копирайтом материала или синтетических данных в обучающем сете, что становится важным аргументом в судебных спорах [23:07].

## 🔄 Мониторинг в продакшене: почему модели «ломаются»
[[JUMP:31:34]]

Бивальд утверждает, что в реальном мире модели редко выходят из строя из-за сложных академических причин вроде «дрейфа данных» (data drift). Чаще всего виной становится человеческий фактор или изменения в «апстрим» (upstream) системах [33:10].

В качестве примера он привел случай из практики в Yahoo: команда поисковой выдачи использовала данные от команды по борьбе со спамом [34:07]. Когда «антиспамщики» обновили свою модель, сделав её более чувствительной, оценки спамности выросли. Поисковый алгоритм, не зная об изменениях, начал массово скрывать релевантные сайты, посчитав их подозрительными [34:33]. Мониторинг W&B позволяет вовремя заметить такие аномалии в распределении выходных данных и отправить уведомление инженеру [35:50].

## 🧪 Будущее: Промпт-инжиниринг и LLM-агенты
[[JUMP:30:04]]

За последние два года индустрия пережила шок из-за взрывного роста больших языковых моделей (LLM). Бивальд отмечает, что классическое машинное обучение дополняется, а иногда и заменяется промпт-инжинирингом [30:16].

В Weights & Biases адаптировали платформу для поддержки новых рабочих процессов:

*   **Трассировка промптов:** Каждое изменение в текстовом запросе теперь может считаться отдельным экспериментом [30:43].
*   **Цепочки агентов:** W&B отслеживает работу сложных систем, где одна LLM автоматически создает промпты для другой, помогая понять, на каком этапе «цепочки» произошел сбой [30:56].
*   **RLHF против RLAIF:** Обсуждая обучение с подкреплением на основе отзывов людей (RLHF), Бивальд выразил мнение, что пока люди справляются с задачами оценки качества лучше алгоритмов, человеческий вклад будет необходим [10:10]. Однако он признает, что автоматизация этого процесса (RLAIF) неизбежна по мере усложнения задач [09:57].

В завершение беседы Лукас Бивальд подчеркнул свое нежелание продавать Weights & Biases крупным игрокам вроде AWS или Google. Его цель — сохранить независимость компании, чтобы иметь возможность интегрироваться с любыми облачными провайдерами и инструментами (Snowflake, Databricks), обеспечивая клиентам гибкость выбора [40:09].