Как фреймворк RouteLLM сохраняет качество GPT-4 при радикальном снижении затрат

Wes Roth 26,3 тыс. 18 мин 4 мин 08.07.2024
Главное

Линейный рост сложности нейросетей неизбежно ведет к кратному увеличению операционных расходов. Использование флагманских моделей вроде GPT-4o для тривиальных задач напоминает наем нейрохирурга для замены лампочек: результат будет достигнут, но цена окажется неоправданной. Автор канала Уэс Рот анализирует новый технологический прорыв — фреймворк RouteLLM, позволяющий сохранить до 95% качества топовых моделей при снижении затрат на 85%.

📉 Проблема «стрельбы из пушки по воробьям» 2:08

В современной индустрии искусственного интеллекта сложилась парадоксальная ситуация. С одной стороны, такие модели, как Claude 3 Opus или GPT-4o, демонстрируют выдающиеся способности. С другой стороны, их использование стоит дорого, а скорость работы может быть ниже, чем у компактных решений .

Уэс Рот отмечает, что при создании сложных систем на базе ИИ-агентов самым простым способом улучшить результат является масштабирование — добавление большего количества агентов, судей и проверяющих систем . Однако если каждый из десяти специализированных агентов в цепочке будет обращаться к GPT-4, стоимость выполнения одного запроса может взлететь до небес. Автор приводит примеры:

🛣️ RouteLLM: Интеллектуальный «шлюз» для запросов 1:04

Решением этой дилеммы стал RouteLLM — опенсорсный фреймворк, разработанный исследователями из Беркли в сотрудничестве с компаниями Anyscale и Canva . Это система-привратник, которая стоит перед нейросетями и решает, какому «мозгу» доверить конкретный вопрос в зависимости от его сложности.

Суть подхода заключается в бинарной классификации: система оценивает входящий промпт и выбирает между «сильной» (дорогой) и «слабой» (дешевой) моделью . По мнению Уэса Рота, этот подход во многом напоминает будущую стратегию Apple (Apple Intelligence), где простые задачи будут решаться локально на устройстве (бесплатно), а сложные — перенаправляться на серверы OpenAI .

Ключевые достижения RouteLLM, зафиксированные в научной работе:

Автор подчеркивает, что для бизнеса это означает возможность получить проект стоимостью $100 000 всего за $15 000 с минимальными потерями в точности .

🧠 Обучение на данных Chatbot Arena 8:39

Маршрутизатор RouteLLM не просто угадывает сложность задачи. Он был обучен на колоссальном массиве данных Chatbot Arena (проекта организации LMSYS). На данный момент арена собрала более 1,4 млн голосов от полумиллиона пользователей, которые в слепых тестах выбирали лучший ответ из двух предложенных разными нейросетями .

Анализ этих данных показал, что даже самые слабые модели в определенных сценариях выигрывают у лидеров или выдают аналогичный результат . Именно эти «зоны эффективности» малых моделей и использует RouteLLM.

Технологический процесс обучения выглядит как «слоеный пирог» из нейросетей:

  1. LLM как судья: Вместо того чтобы платить тысячам людей за оценку ответов, исследователи использовали GPT-4 для судейства качества генерации . Как утверждает спикер, оценки GPT-4 имеют высокую корреляцию с человеческими предпочтениями .
  2. Генерация данных: На основе этих судейских решений создается огромный датасет.
  3. Обучение маршрутизатора: Другая нейросеть обучается на этом датасете предсказывать, справится ли дешевая модель с задачей так же хорошо, как дорогая .

🚀 Будущее и локальные вычисления 13:52

Одной из самых перспективных находок исследователей Уэс Рот считает «способность к переносу обучения» (transfer learning) у маршрутизатора. Даже если во время работы заменить «сильную» или «слабую» модель на другие, система сохраняет свою эффективность в распределении запросов .

Автор также обращает внимание на экономическую выгоду использования локальных моделей на собственных ПК с видеокартами Nvidia. По его оценкам, работа мощного компьютера обходится примерно в 10 центов в час в пересчете на электричество . Если RouteLLM сможет перенаправлять хотя бы половину запросов на локальную модель, стоимость эксплуатации системы для пользователя упадет практически до нуля .

В заключение Уэс Рот выражает легкую обеспокоенность тем, что архитектуры ИИ становятся многослойными: одни нейросети обучают другие, третьи судят результаты, а четвертые маршрутизируют трафик. По мнению автора, это может привести к ситуации, когда человек перестанет до конца понимать, как именно принимаются решения внутри этой цепочки «электронных мозгов» . Тем не менее, он считает RouteLLM важнейшим шагом к демократизации и удешевлению технологий искусственного интеллекта.


💬 Цитаты

«Мы не хотим, чтобы нейрохирург мирового класса менял лампочки.»

«Маршрутизатор демонстрирует значительные способности к переносу обучения, сохраняя эффективность даже при смене моделей.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Маршрутизация LLM (LLM Routing)
Технология автоматического выбора наиболее подходящей нейросети для обработки конкретного запроса.
LLM-as-a-Judge
Метод оценки качества ответов одной нейросети с помощью другой, более мощной модели.
Бережливое использование (Cost-effective deployment)
Стратегия развертывания ИИ, нацеленная на минимизацию затрат на вычислительные ресурсы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RouteLLM GPT-4o LMSYS Chatbot Arena OpenAI