Gretel.ai: „Мы строим GitHub для данных“

Greylock 837 36 мин 3 мин 03.05.2022
Главное

Gretel.ai: Демократизация данных через синтетические технологии 0:41

В недавнем выпуске подкаста Gray Matter ведущая Хэзер Мак обсудила с Али Гулшаном, генеральным директором и сооснователем Gretel.ai, как компания решает проблему «узкого горлышка» данных. Gretel.ai позиционирует себя как своеобразный «GitHub для данных», предоставляя инструменты для создания синтетических наборов, которые помогают организациям любого размера безопасно экспериментировать, соблюдать требования конфиденциальности и ускорять разработку ML/AI-продуктов.

🛠 Проблема «узкого горлышка» и миссия компании 0:55

Али Гулшан проводит аналогию между развитием экосистемы разработки ПО и текущим состоянием работы с данными. По его мнению, за последние десятилетия сообщество успешно устранило «узкое горлышко» в вычислительных мощностях благодаря облачным технологиям, микросервисам и инструментам вроде GitHub, которые демократизировали написание кода.

Сегодня Гулшан утверждает, что аналогичный барьер существует в сфере данных: они обременены вопросами этики, конфиденциальности, регуляторными ограничениями и внутренними корпоративными политиками.

📊 Роль синтетических данных 8:20

Одним из центральных продуктов Gretel.ai являются синтетические данные. Гулшан отмечает, что в ряде случаев они могут быть даже эффективнее «сырых» (raw) данных.

🏥 Применение в здравоохранении и других отраслях 17:05

Пандемия ускорила принятие решений в здравоохранении и биомедицине, где Gretel.ai активно помогает институтам.

🚀 Стратегия развития и масштабирования 32:30

На текущий момент в Gretel.ai работают около 40 человек. Компания придерживается модели распределенной работы (remote-first) в пределах Северной Америки.

Гулшан подчеркивает, что в следующие 18–24 месяца главная цель Gretel.ai — стать универсальной платформой для всех типов синтетических данных, предоставляя пользователям прозрачную аналитику того, насколько эффективны прогнозы, сделанные на «синтетике», по сравнению с оригиналом.

💬 Цитаты

«Синтетические данные в ряде случаев могут даже давать лучшие результаты, чем сырые данные.»

Али Гулшан 08:20

«Мы хотим сделать работу с данными настолько простой и безопасной, чтобы каждый мог ею заниматься.»

Али Гулшан 16:26
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Синтетические данные
Данные, искусственно сгенерированные компьютерными алгоритмами, которые сохраняют статистические свойства оригинала, но не содержат конфиденциальной информации.
Дифференциальная приватность
Метод обеспечения конфиденциальности, добавляющий математический «шум» в данные для предотвращения идентификации конкретных лиц.
GAN (Генеративно-состязательные сети)
Архитектура нейросетей, где две модели соревнуются друг с другом, чтобы создавать реалистичные синтетические данные.
📊 Цифры
🗓 Хронология
  1. 2019 Основание компании Gretel.ai.
  2. Сентябрь 2020 Выпуск первой публичной бета-версии продукта.
  3. Октябрь 2025 Закрытие раунда финансирования серии B.
⚖️ Другая сторона
Искусственный интеллект Gretel.ai Синтетические данные Machine Learning