Эмодзи вместо тикера: как Hugging Face стал центром открытого ИИ

Eye on AI 680 47 мин 4 мин 13.11.2024
Главное

В новом выпуске подкаста Eye on AI Жефф Будье, руководитель по продукту и росту в Hugging Face, подробно рассказывает о трансформации платформы из простого репозитория моделей в центральный хаб разработки ИИ. Обсуждение охватывает путь компании от чат-бота для подростков до ключевого игрока индустрии, важность открытого исходного кода для корпоративной безопасности и запуск нового решения HUGS для упрощения развертывания моделей в облаке.

🤖 Рождение и эволюция Hugging Face 2:55

История Hugging Face началась восемь лет назад, когда Клеман Деланг, Жюльен Шомон и Томас Вольф решили сделать искусственный интеллект более доступным и дружелюбным . По словам Жеффа Будье, в 2016 году эта затея казалась безумием: технологий уровня современных трансформеров еще не существовало, а первым продуктом компании был мобильный чат-бот для подростков .

Само название компании вызывает немало вопросов у новичков. Будье поясняет, что оно не имеет отношения к «лицехватам» из фильма «Чужой» . На самом деле, это отсылка к одноименному эмодзи с двумя раскрытыми ладонями 🤗. Основатели компании даже заключили пари: они хотели стать первой компанией, которая выйдет на IPO с эмодзи вместо стандартного трех- или четырехбуквенного тикера на бирже .

Переломным моментом для Hugging Face стало появление архитектуры трансформеров и технологии трансферного обучения (transfer learning). Это позволило разработчикам брать готовые предобученные модели и адаптировать их под свои задачи с минимальным количеством данных . Сегодня платформа хостит более 1 миллиона публичных моделей, охватывающих все области: от обработки текста и аудио до биохимии и анализа временных рядов .

🏗️ Больше чем GitHub для нейросетей 14:47

Часто Hugging Face сравнивают с GitHub, но Жефф Будье подчеркивает фундаментальные различия. В то время как GitHub ориентирован на код, Hugging Face построен специально для нужд машинного обучения. Это работа с гигантскими файлами весов моделей, огромными датасетами и специфическими наборами инструментов .

Платформа представляет собой «айсберг»:

За последние годы аудитория платформы, насчитывающая более 5 миллионов человек, претерпела качественные изменения . Если четыре года назад это были почти исключительно исследователи ИИ и специалисты по данным, то сегодня к ним примкнули инженеры по машинному обучению и обычные разработчики ПО, которые строят «AI-native» приложения .

🧭 Навигация и тренды: Что сегодня «в топе»? 19:52

С миллионом доступных моделей пользователям необходимы инструменты фильтрации. Главным ориентиром в индустрии стал Open LLM Leaderboard — рейтинг, позволяющий сравнивать производительность текстовых моделей . Однако Будье отмечает, что существуют сотни других таблиц лидеров: для арабского языка, для систем распознавания речи или изображений .

Жефф делится любопытным наблюдением о текущих трендах:

Важной частью платформы стали Spaces — хостинг приложений, где разработчики выкладывают работающие демо-версии своих систем . По статистике Будье, каждые 10 секунд на Hugging Face создается новая модель, датасет или приложение .

🔓 Open Source против закрытых моделей 33:52

Один из ключевых вопросов дискуссии — конкуренция открытых моделей с проприетарными гигантами вроде GPT-4 от OpenAI. Жефф Будье утверждает, что разрыв стремительно сокращается. По его мнению, мы живем в период «аномалии», когда компании в панике бросились использовать закрытые API, чтобы быстро выпустить продукт на рынок .

Однако создание ключевой технологии на базе чужого API несет стратегические риски:

  1. Отсутствие контроля: Поставщик может изменить версию модели в любой понедельник, и клиентский опыт непредсказуемо изменится .
  2. Безопасность данных: Корпорации предпочитают держать данные и технологии внутри периметра (in-house) .
  3. Ответственность: Только владея моделью целиком, компания может быть по-настоящему подотчетна за результаты её работы .

Будье убежден, что будущее за открытыми весами, когда лучшие модели доступны каждому для локального развертывания. Сотрудничество с Mozilla Foundation по интеграции Hugging Chat в браузер Firefox — один из примеров того, как открытый ИИ становится частью повседневного пользовательского опыта .

🤗 Решение HUGS и будущее «без кода» 39:29

Главным барьером для перехода бизнеса на открытые модели остается сложность их развертывания. Чтобы решить эту проблему, Hugging Face запустила продукт HUGS (Hugging Face Managed General Support) .

Это решение автоматизирует «водопроводные» работы (plumbing), с которыми сталкиваются инженеры:

HUGS превращает двухмесячный проект силами пяти инженеров в задачу на несколько часов . При этом Hugging Face стремится сделать ИИ доступным не только для программистов, но и для широкого круга людей через No-code решения. Например, сервис AutoTrain позволяет обучать модели генерации изображений, просто загружая картинки через интерфейс, без написания ни единой строчки кода на Python .

💬 Цитаты

«Мы живем в аномалии: компании используют закрытые модели через API как самый быстрый путь, но для контроля над своей судьбой им придется вернуться к Open Source.»

Жефф Будье 36:21

«Каждые 10 секунд на Hugging Face создается новая модель, датасет или приложение.»

Жефф Будье 26:50
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📊 Цифры
🗓 Хронология
  1. 2016 Основание Hugging Face как мобильного чат-бота для подростков.
  2. 2020 Жефф Будье присоединился к команде; в этот период аудитория состояла в основном из исследователей.
  3. 2024 Запуск решения HUGS и интеграция Hugging Chat в Firefox.
⚖️ Другая сторона
Искусственный интеллект Hugging Face Open Source Transformers Жюльен Шомон HUGS