# Gretel.ai: „Мы строим GitHub для данных“

Источник: https://www.youtube.com/watch?v=YcOUuJ8b8S8
Канал: Greylock
Опубликовано: 03.05.2022

---

## Gretel.ai: Демократизация данных через синтетические технологии
[[JUMP:00:41]]

В недавнем выпуске подкаста Gray Matter ведущая Хэзер Мак обсудила с Али Гулшаном, генеральным директором и сооснователем Gretel.ai, как компания решает проблему «узкого горлышка» данных. Gretel.ai позиционирует себя как своеобразный «GitHub для данных», предоставляя инструменты для создания синтетических наборов, которые помогают организациям любого размера безопасно экспериментировать, соблюдать требования конфиденциальности и ускорять разработку ML/AI-продуктов.

### 🛠 Проблема «узкого горлышка» и миссия компании
[[JUMP:00:55]]

Али Гулшан проводит аналогию между развитием экосистемы разработки ПО и текущим состоянием работы с данными. По его мнению, за последние десятилетия сообщество успешно устранило «узкое горлышко» в вычислительных мощностях благодаря облачным технологиям, микросервисам и инструментам вроде GitHub, которые демократизировали написание кода.

Сегодня Гулшан утверждает, что аналогичный барьер существует в сфере данных: они обременены вопросами этики, конфиденциальности, регуляторными ограничениями и внутренними корпоративными политиками.

* **История создания:** Основатели компании — Али Гулшан (CEO), Алекс Уотсон (CPO) и Джон Майерс (CTO) — имеют опыт работы в разведывательном сообществе и создания стартапов.
* **Видение:** Команда увидела, как крупные компании создают «огороженные сады» (walled gardens) вокруг своих данных, получая огромное преимущество.
* **Цель:** Сделать доступными для всех инструменты, которые ранее были прерогативой лишь крупных корпораций, чтобы сообщество могло делиться данными и совместно работать над ними.

### 📊 Роль синтетических данных
[[JUMP:08:20]]

Одним из центральных продуктов Gretel.ai являются синтетические данные. Гулшан отмечает, что в ряде случаев они могут быть даже эффективнее «сырых» (raw) данных.

* **Почему синтетика лучше:** «Сырые» данные часто страдают от неполноты, отсутствия классификации или меток, что ведет к серьезным искажениям (биасам) в моделях.
* **Технологический стек:** Компания использует нейронные сети, включая языковые модели и GAN (генеративно-состязательные сети), для работы с текстом, временными рядами и табличными данными. Недавние исследования также позволили расширить применение на изображения.
* **Контроль качества:** Система позволяет автоматически оценивать качество, добавлять «видимость» (visibility) в данные и применять дифференциальную приватность (differential privacy), чтобы гарантировать безопасность.

### 🏥 Применение в здравоохранении и других отраслях
[[JUMP:17:05]]

Пандемия ускорила принятие решений в здравоохранении и биомедицине, где Gretel.ai активно помогает институтам.

* **Illumina:** Совместно с этим гигантом в области геномики компания работает над синтетическими наборами данных генотипов и фенотипов.
* **Борьба с неравенством:** Университет Калифорнии в Ирвайне использовал инструменты Gretel для борьбы с предвзятостью при диагностике женских заболеваний сердца. Поскольку данных о мужчинах было в разы больше, система «дообучала» данные, чтобы сбалансировать выборку.
* **Финтех и Web3:** В финансовом секторе инструменты используются для прогнозирования сценариев «черных лебедей», а в Web3-играх — для тестирования блокчейн-сетей на основе синтетических данных, имитирующих распределение реальных игроков.

### 🚀 Стратегия развития и масштабирования
[[JUMP:32:30]]

На текущий момент в Gretel.ai работают около 40 человек. Компания придерживается модели распределенной работы (remote-first) в пределах Северной Америки.

* **Рост:** В октябре компания закрыла раунд серии B на сумму $50 млн.
* **Наем:** Активно расширяются команды инженеров, прикладных исследований, маркетинга и работы с клиентами (customer success).
* **Культура:** Подход к найму остается системным. По мнению Гулшана, развитие культуры можно эффективно поддерживать через сам продукт — делая его автоматизированным и простым, компания снижает потребность в бесконечном раздувании штата.

Гулшан подчеркивает, что в следующие 18–24 месяца главная цель Gretel.ai — стать универсальной платформой для всех типов синтетических данных, предоставляя пользователям прозрачную аналитику того, насколько эффективны прогнозы, сделанные на «синтетике», по сравнению с оригиналом.