Джефф Будье: «Коммерческий ИИ теперь выпускают в стиле Apple»

The TWIML AI Podcast 1,7 тыс. 41 мин 7 мин 11.04.2023
Главное

В марте 2023 года индустрия искусственного интеллекта пережила беспрецедентный бум релизов, кульминацией которого стал выход GPT-4, заставивший многих переосмыслить баланс сил между коммерческими гигантами и открытым сообществом. В этом выпуске подкаста The TWIML AI ведущий Сэм Черрингтон беседует с директором по продукту компании Hugging Face Джеффом Будье о будущем открытого кода в эпоху генеративного ИИ. Собеседники анализируют коммерциализацию технологий, экономическую жизнеспособность открытых языковых моделей и стратегическое партнерство Hugging Face с облачным гигантом AWS.

🎆 Великий взрыв ИИ-релизов и смена парадигмы 0:00

В середине марта 2023 года мировое ИИ-сообщество столкнулось с настоящим фейерверком технологических анонсов. Буквально за несколько дней состоялись релизы GPT-4 от OpenAI, Google PaLM API, модели Claude от компании Anthropic, а также открытой архитектуры Alpaca от Стэнфордского университета. Одновременно с этим компания AssemblyAI представила модель распознавания речи, которая, согласно их заявлениям, превосходит Whisper на 43%. Прорыв произошел и в генерации изображений с выходом Midjourney 5, которая научилась корректно отрисовывать пальцы рук, хотя всё еще испытывает трудности с подсчетом общего количества объектов на картинке.

По мнению Джеффа Будье, этот шквал новостей ознаменовал фундаментальный сдвиг в индустрии. Если раньше сфера машинного обучения развивалась как классическая академическая наука, где исследователи публиковали статьи, воспроизводили результаты коллег и открыто улучшали общую базу, то теперь ситуация изменилась. Гость отмечает, что новые коммерческие модели выпускаются в «стиле Apple»: со сцены объявляют о выходе условного «iPhone 10», показывают эффектное демо, называют цену и закрывают доступ к внутреннему устройству технологии.


🚪 Битва за открытость и коммерческие тайны 7:48

Миссией компании Hugging Face является демократизация машинного обучения, которая, как подчеркивает Будье, невозможна без открытого исходного кода, доступности тренировочных датасетов, весов моделей и прозрачности кода. Однако последние тренды демонстрируют противоположную тенденцию. Джефф Будье обращает внимание на то, что технический отчет о релизе GPT-4 примечателен именно отсутствием ключевой информации. В документе прямо указано, что из соображений конкуренции и коммерческой выгоды создатели скрыли размер модели, архитектуру и состав обучающих данных.

Как напоминает Будье, сооснователь OpenAI Илья Суцкевер в последующих интервью прямо заявил, что открытый исходный код больше не является оптимальным путем развития для их компании по коммерческим причинам. По мнению гостя, такая позиция закрытых игроков лишь удваивает обязательства Hugging Face перед сообществом по созданию мощных открытых базовых альтернатив.


📉 Экономика открытого ИИ: миф о неподъемной стоимости 10:11

В индустрии идут активные споры о том, смогут ли открытые проекты долгосрочно конкурировать с закрытыми коммерческими гигантами, учитывая колоссальные затраты на вычисления. Джефф Будье выражает оптимизм, указывая на то, что современные исследования направлены на повышение производительности ИИ при меньшем размере моделей. Общепринятые законы масштабирования (scaling laws), сформулированные в оригинальной статье о GPT-3, сегодня успешно пересматриваются, начиная с работы Chinchilla и заканчивая моделью Stanford Alpaca.

В качестве ключевого аргумента гость приводит пример Stanford Alpaca: исследователи взяли за основу 7-миллиардную модель и провели инструктивное дообучение (instruction fine-tuning), потратив на облачные вычисления всего $500. По мнению Будье, практическое применение ИИ в будущем не потребует миллионов долларов на обучение и огромных бюджетов для каждого локального кейса.

Параллельно развивается направление локального запуска моделей на конечных устройствах (edge computing). Ключевые технологические вехи в этой области:


🛠️ Ловушка швейцарского ножа: почему гигантские LLM не всегда нужны 15:28

Всплеск хайпа вокруг генеративного ИИ породил рыночную путаницу. Многие компании пытаются использовать большие языковые модели (LLM) как универсальное решение для любых задач. Джефф Будье сталкивается на практике с клиентами, которые с восторгом рассказывают, как GPT-4 в интерактивной песочнице успешно парсит HTML-страницы. Гость иронично замечает, что задача парсинга веб-страниц была эффективно решена еще 10 лет назад с помощью копеечных и быстрых традиционных алгоритмов.

Собеседники сходятся во мнении, что использование сверхдорогих ИИ-моделей для простых рутинных операций нецелесообразно. Будье проводит аналогию: если вам нужно повесить картину на стену, вы вряд ли станете использовать для этого швейцарский армейский нож — скорее вы возьмете специализированную дрель. На платформе Hugging Face сейчас размещено более 150 000 бесплатных моделей, адаптированных под конкретные узкие задачи, языки и домены. По мнению спикера, прагматичный подход к обработке данных и клиентских тикетов на уровне компании требует выбора небольших, экономичных моделей, способных работать даже на стандартных CPU.


🌸 Проекты Hugging Face: Bloom, BloomZ и Big Code 18:40

Год назад Hugging Face завершила исследовательскую фазу масштабного проекта Big Science, результатом которого стал выпуск модели Bloom со 176 миллиардами параметров. По оценке Будье, Bloom до сих пор остается одной из лучших мультиязычных открытых моделей в мире. Однако главным достижением проекта эксперт считает не сам чекпоинт модели, а демонстрацию того, что глобальная научная коллаборация сотен специалистов из разных организаций возможна и способна конкурировать с ИТ-гигантами.

Развитие линеек ИИ-моделей продолжается по нескольким направлениям:


📊 Градиент открытости: спектр ИИ-релизов 25:15

Понятия «открытый» (open source) и «закрытый» (closed source) в сфере ИИ не бинарны — между ними существует целая шкала доступности технологий. Ведущая исследовательница Hugging Face Ирен Сулейман опубликовала профильную научную работу, описывающую так называемый «градиент релизов» (gradient of release) для генеративных моделей.

Джефф Будье иллюстрирует этот спектр на примере недавних шагов корпорации Meta, которая ищет свой баланс на этой шкале: от запуска Galactica до релиза LLaMA. Meta публикует исходный код архитектуры, но не предоставляет веса моделей в публичный доступ без индивидуального одобрения заявок (хотя впоследствии, как отмечает гость, веса всё равно утекли на торренты). Сама компания Hugging Face принципиально находится на крайней точке спектра полной открытости, поскольку её руководство убеждено: искусственный интеллект слишком важен для человечества, чтобы не быть общественным достоянием.


🤝 Альянс с AWS и аппаратное ускорение в Sagemaker 27:44

Для создания мощных открытых альтернатив закрытым системам Hugging Face расширила стратегическое партнерство с облачной платформой AWS. В рамках этого сотрудничества на инфраструктуре AWS был развернут суперкомпьютерный кластер Hugging Face, на котором прямо сейчас обучаются новые базовые модели. Компания планирует держать их в секрете до полной готовности и официального релиза.

Второй важнейший вектор партнерства — снижение производственных затрат бизнеса при выводе ИИ в продакшн. Команды инженеров ведут глубокую совместную работу на уровне компиляторов и железа, электромеханически интегрируя модели со специализированными чипами AWS:

Пакет Optimum Neuron выполняет функцию открытого моста между высокоуровневым кодом моделей (PyTorch, TensorFlow) и низкоуровневой архитектурой чипов от Amazon. В отличие от проекта ONNX, который стремится быть универсальной промежуточной репрезентацией для любого железа, Optimum Neuron жестко оптимизирован и компилирует граф моделей исключительно под чипы Trainium и Inferentia для достижения пиковых скоростей.


💰 Бизнес-модель Hugging Face: монетизация вопреки «синдрому Docker» 38:19

Аналитики ИТ-рынка часто сравнивают Hugging Face с Docker — другой культовой технологической компанией, которую обожали разработчики, но которая долгое время испытывала огромные трудности с монетизацией и построением устойчивого бизнеса. Джефф Будье категорически не согласен с такой параллелью. По его мнению, Hugging Face, став «Гитхабом для машинного обучения», заняла стратегическую позицию шлюза к ИИ-вычислениям, рынок которых демонстрирует экспоненциальный рост.

Бизнес-модель компании строится на продаже вычислительных мощностей и дополнительных сервисов поверх бесплатной платформы. В качестве доказательства коммерческой состоятельности Будье приводит запуск сервиса Hugging Face Inference Endpoints, позволяющего развернуть любую модель в облаке AWS буквально в три клика мышкой. Всего за три месяца с момента релиза этот инструмент привлек более 1000 платящих клиентов. Это подтверждает, что разработчики готовы платить за удобную инфраструктуру и оптимизацию затрат.

💬 Цитаты

«Технический отчет GPT-4 примечателен именно отсутствием ключевой информации.»

Джефф Будье 08:39

«Если вам нужно повесить картину на стену, вы вряд ли станете использовать для этого швейцарский армейский нож.»

Джефф Будье 17:57

«Искусственный интеллект слишком важен для человечества, чтобы не быть общественным достоянием.»

Джефф Будье 27:31
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
LLM (Large Language Model)
Большая языковая модель, обученная на гигантских массивах текста для генерации и анализа контента.
Инференс (Inference)
Процесс работы уже обученной нейросети по выполнению конкретной задачи на пользовательских данных.
Инструктивное дообучение (Instruction fine-tuning)
Метод настройки нейросети, обучающий её точно следовать текстовым командам пользователя.
Эдж-вычисления (Edge computing)
Выполнение вычислительных процессов ИИ непосредственно на локальных устройствах пользователя без обращения к облачным серверам.
📊 Цифры
🗓 Хронология
  1. Июль 2022 года Завершение основной фазы проекта Big Science по обучению открытой модели Bloom.
  2. Начало 2023 года Запуск коммерческого сервиса Hugging Face Inference Endpoints и привлечение первой тысячи клиентов.
  3. Март 2023 года Массовый шквал релизов генеративного ИИ, включая выход GPT-4, Claude и Stanford Alpaca.
⚖️ Другая сторона
Искусственный интеллект Hugging Face Джефф Будье Open Source Optimum Neuron AWS Trainium