# Эмодзи вместо тикера: как Hugging Face стал центром открытого ИИ

Источник: https://www.youtube.com/watch?v=5Jk9YTTJJrA
Канал: Eye on AI
Опубликовано: 13.11.2024

---

В новом выпуске подкаста Eye on AI Жефф Будье, руководитель по продукту и росту в Hugging Face, подробно рассказывает о трансформации платформы из простого репозитория моделей в центральный хаб разработки ИИ. Обсуждение охватывает путь компании от чат-бота для подростков до ключевого игрока индустрии, важность открытого исходного кода для корпоративной безопасности и запуск нового решения HUGS для упрощения развертывания моделей в облаке.

## 🤖 Рождение и эволюция Hugging Face
[[JUMP:02:55]]

История Hugging Face началась восемь лет назад, когда Клеман Деланг, Жюльен Шомон и Томас Вольф решили сделать искусственный интеллект более доступным и дружелюбным [03:25]. По словам Жеффа Будье, в 2016 году эта затея казалась безумием: технологий уровня современных трансформеров еще не существовало, а первым продуктом компании был мобильный чат-бот для подростков [03:52].

Само название компании вызывает немало вопросов у новичков. Будье поясняет, что оно не имеет отношения к «лицехватам» из фильма «Чужой» [04:52]. На самом деле, это отсылка к одноименному эмодзи с двумя раскрытыми ладонями 🤗. Основатели компании даже заключили пари: они хотели стать первой компанией, которая выйдет на IPO с эмодзи вместо стандартного трех- или четырехбуквенного тикера на бирже [04:32].

Переломным моментом для Hugging Face стало появление архитектуры трансформеров и технологии трансферного обучения (transfer learning). Это позволило разработчикам брать готовые предобученные модели и адаптировать их под свои задачи с минимальным количеством данных [08:35]. Сегодня платформа хостит более 1 миллиона публичных моделей, охватывающих все области: от обработки текста и аудио до биохимии и анализа временных рядов [06:47].

## 🏗️ Больше чем GitHub для нейросетей
[[JUMP:14:47]]

Часто Hugging Face сравнивают с GitHub, но Жефф Будье подчеркивает фундаментальные различия. В то время как GitHub ориентирован на код, Hugging Face построен специально для нужд машинного обучения. Это работа с гигантскими файлами весов моделей, огромными датасетами и специфическими наборами инструментов [15:10].

Платформа представляет собой «айсберг»:

*   **Видимая часть:** Публичный «Хаб» (The Hub) — сайт huggingface.co, где любой желающий может найти открытые модели, такие как Llama 3.2 от Meta, протестировать их через инференс прямо в браузере и скачать веса [10:05].
*   **Скрытая часть:** Огромная экосистема open-source библиотек (например, Transformers) и более 100 000 организаций, работающих над частными проектами [19:25]. На платформе размещено столько же приватных моделей, сколько и публичных — компании используют Hugging Face как защищенную среду для совместной работы команд [13:36].

За последние годы аудитория платформы, насчитывающая более 5 миллионов человек, претерпела качественные изменения [18:05]. Если четыре года назад это были почти исключительно исследователи ИИ и специалисты по данным, то сегодня к ним примкнули инженеры по машинному обучению и обычные разработчики ПО, которые строят «AI-native» приложения [17:25].

## 🧭 Навигация и тренды: Что сегодня «в топе»?
[[JUMP:19:52]]

С миллионом доступных моделей пользователям необходимы инструменты фильтрации. Главным ориентиром в индустрии стал Open LLM Leaderboard — рейтинг, позволяющий сравнивать производительность текстовых моделей [20:06]. Однако Будье отмечает, что существуют сотни других таблиц лидеров: для арабского языка, для систем распознавания речи или изображений [21:01].

Жефф делится любопытным наблюдением о текущих трендах:

*   Впервые в истории платформы в топ-10 самых популярных (трендовых) моделей вошли в основном решения, не связанные с обработкой естественного языка (NLP) [31:13].
*   Восемь из десяти топовых моделей — это генераторы видео, мультимодальные системы (как Arya, понимающая текст и изображения), генераторы картинок (Flux) и системы транскрибации [31:26].
*   Происходит «кросс-опыление» техник: методы, обкатанные в генерации изображений (например, LoRA), теперь успешно применяются в текстовых моделях и наоборот [32:48].

Важной частью платформы стали Spaces — хостинг приложений, где разработчики выкладывают работающие демо-версии своих систем [24:58]. По статистике Будье, каждые 10 секунд на Hugging Face создается новая модель, датасет или приложение [26:50].

## 🔓 Open Source против закрытых моделей
[[JUMP:33:52]]

Один из ключевых вопросов дискуссии — конкуренция открытых моделей с проприетарными гигантами вроде GPT-4 от OpenAI. Жефф Будье утверждает, что разрыв стремительно сокращается. По его мнению, мы живем в период «аномалии», когда компании в панике бросились использовать закрытые API, чтобы быстро выпустить продукт на рынок [36:21].

Однако создание ключевой технологии на базе чужого API несет стратегические риски:

1.  **Отсутствие контроля:** Поставщик может изменить версию модели в любой понедельник, и клиентский опыт непредсказуемо изменится [38:11].
2.  **Безопасность данных:** Корпорации предпочитают держать данные и технологии внутри периметра (in-house) [37:43].
3.  **Ответственность:** Только владея моделью целиком, компания может быть по-настоящему подотчетна за результаты её работы [39:01].

Будье убежден, что будущее за открытыми весами, когда лучшие модели доступны каждому для локального развертывания. Сотрудничество с Mozilla Foundation по интеграции Hugging Chat в браузер Firefox — один из примеров того, как открытый ИИ становится частью повседневного пользовательского опыта [35:12].

## 🤗 Решение HUGS и будущее «без кода»
[[JUMP:39:29]]

Главным барьером для перехода бизнеса на открытые модели остается сложность их развертывания. Чтобы решить эту проблему, Hugging Face запустила продукт **HUGS** (Hugging Face Managed General Support) [45:48].

Это решение автоматизирует «водопроводные» работы (plumbing), с которыми сталкиваются инженеры:

*   Оптимизация под конкретное железо (GPU) [41:03].
*   Решение проблем с переполнением памяти (out of memory errors) [41:43].
*   Настройка квантования (сжатия весов до форматов int4 или fp8) для повышения скорости работы [41:58].

HUGS превращает двухмесячный проект силами пяти инженеров в задачу на несколько часов [41:15]. При этом Hugging Face стремится сделать ИИ доступным не только для программистов, но и для широкого круга людей через No-code решения. Например, сервис AutoTrain позволяет обучать модели генерации изображений, просто загружая картинки через интерфейс, без написания ни единой строчки кода на Python [43:56].