Стэнфорд представил Octopus v2: локальный ИИ-агент, обошедший GPT-4 в точности

Wes Roth 48,1 тыс. 10 мин 4 мин 07.04.2024
Главное

Исследователи из Стэнфордского университета представили Octopus v2 — компактную языковую модель, предназначенную для работы непосредственно на пользовательских устройствах. Несмотря на свои скромные размеры, эта разработка демонстрирует превосходство над флагманской GPT-4 от OpenAI в задачах, критически важных для функционирования автономных ИИ-агентов.

🐙 Octopus v2: маленький гигант в мире больших моделей 0:00

На рынке автономных ИИ-агентов наметился новый тренд: переход от гигантских облачных систем к компактным локальным решениям . Проект Стэнфорда под названием Octopus v2 представляет собой «on-device» модель (работающую без интернета на смартфонах или ПК), которая превосходит GPT-4 как по точности, так и по задержке (latency) при выполнении специфических задач .

Ведущий Уэс Рот проводит параллель с недавней разработкой Apple — моделью ReALM . Apple создала крошечную визуальную модель (в тысячи раз меньше GPT-4), которая лучше понимает происходящее на экране устройства. Octopus v2 движется в том же направлении, фокусируясь на автоматизации рабочих процессов .

🛠️ Что такое «вызов функций» и зачем он нужен агентам 1:08

Для понимания значимости Octopus v2 необходимо разобраться в концепции «вызова функций» (function calling). По словам Рота, это фундамент для создания ИИ-агентов .

Примеры функций в современной технике:

Именно способность модели безошибочно определять, какую функцию вызвать и с какими параметрами, делает ИИ «агентом», способным действовать, а не просто генерировать текст.

🔐 Проблема облачных моделей: цена и приватность 1:59

Хотя большие модели вроде GPT-4 или Claude показывают отличные результаты, их использование сопряжено с двумя серьезными проблемами, которые отмечает Рот:

  1. Стоимость: За каждый запрос к облачной модели приходится платить компаниям-разработчикам (OpenAI или Anthropic) . Чем сложнее задача и длиннее контекст, тем выше цена за токены .
  2. Приватность: Все данные пользователя уходят на серверы сторонних компаний, которые могут видеть каждое совершаемое действие .

По мнению автора видео, локальные модели решают эти проблемы, однако до настоящего времени они страдали от низкой точности и высокой задержки при попытке вызвать нужные функции .

📊 Технические характеристики и триумф над GPT-4 4:46

Octopus v2 построена на базе открытой модели Google Gemma с 2 миллиардами параметров . Это относительно небольшой размер, позволяющий запускать её на смартфонах, автомобильных системах или VR-гарнитурах .

Результаты тестирования в сравнении с конкурентами:

Особого внимания заслуживает тот факт, что Octopus v2 позволила сократить длину контекста на 95% . Это означает, что модели не нужно передавать огромные инструкции с описанием всех доступных функций — она уже «обучена» их понимать.

📉 Методы оптимизации: LoRA и тренировочные данные 6:58

Исследователи применили несколько подходов для достижения таких результатов:

  1. Полноценное обучение vs LoRA: использовалась технология низкоранговой адаптации (LoRA) для точной настройки модели, что позволяет сохранять высокую эффективность при меньшем количестве параметров .
  2. Объем данных: модель тестировалась на разных наборах данных. Octopus v2 обучалась на 1000 точках данных, в то время как версии с меньшим объемом данных (500 и 100) показали небольшое снижение точности .

Интересное наблюдение Рота касается производительности GPT-4: она оказалась быстрее и точнее, чем GPT-3.5. Автор предполагает, что OpenAI может выделять больше ресурсов графических процессоров (GPU) для своей флагманской модели или же спрос на неё сейчас ниже, чем на версию 3.5 .

💡 Будущее ИИ: большие против маленьких 8:43

Ситуация с Octopus v2 и Apple ReALM указывает на важный сдвиг в индустрии ИИ. В то время как многие компании делают ставку на «гигантизм» — закупку сотен тысяч чипов, строительство электростанций и наращивание параметров до триллионов — Стэнфорд и Apple доказывают эффективность микро-моделей .

По мнению Уэса Рота, архитектура ИИ-агентов будущего не обязательно должна быть массивной . Для специфических задач (чтение экрана, управление приложениями, вызов функций) маленькие агенты оказываются эффективнее, дешевле и быстрее монстров вроде GPT-4 с её предполагаемыми 1,7 трлн параметров .

Это открывает путь к повсеместному внедрению ИИ в «умные» устройства (Edge devices) — от холодильников до термостатов, где критически важна скорость реакции и автономность .

💬 Цитаты

«Мы можем сделать ИИ лучше, увеличивая его, но мы также можем сделать его лучше, уменьшая его. Кажется, предела развитию нет.»

«Octopus v2 сокращает длину контекста на 95%, что позволяет модели работать молниеносно на обычных устройствах.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Вызов функций (Function Calling)
Способность языковой модели преобразовывать запрос пользователя в конкретную команду для программного обеспечения.
Latency (Задержка)
Время, которое требуется модели для выдачи ответа на запрос.
On-device (Локально)
Запуск программного обеспечения непосредственно на процессоре устройства без обращения к облачным серверам.
LoRA (Low-Rank Adaptation)
Метод эффективной дотренировки больших моделей с использованием минимального количества дополнительных параметров.
RAG (Retrieval Augmented Generation)
Технология, позволяющая ИИ искать информацию в базе данных перед тем, как дать ответ.
📊 Цифры
🗓 Хронология
  1. 25 января 2024 Обновление модели GPT-4, с которой проводилось сравнение.
  2. Апрель 2024 Публикация исследования Стэнфорда о модели Octopus v2 (контекст выхода видео).
⚖️ Другая сторона
Искусственный интеллект Octopus v2 Google Gemma Stanford University GPT-4 Apple ReALM