# Стэнфорд представил Octopus v2: локальный ИИ-агент, обошедший GPT-4 в точности

Источник: https://www.youtube.com/watch?v=XhDkrRh3KlM
Канал: Wes Roth
Опубликовано: 07.04.2024

---

Исследователи из Стэнфордского университета представили Octopus v2 — компактную языковую модель, предназначенную для работы непосредственно на пользовательских устройствах. Несмотря на свои скромные размеры, эта разработка демонстрирует превосходство над флагманской GPT-4 от OpenAI в задачах, критически важных для функционирования автономных ИИ-агентов.

## 🐙 Octopus v2: маленький гигант в мире больших моделей
[[JUMP:0:00]]

На рынке автономных ИИ-агентов наметился новый тренд: переход от гигантских облачных систем к компактным локальным решениям [0:00]. Проект Стэнфорда под названием Octopus v2 представляет собой «on-device» модель (работающую без интернета на смартфонах или ПК), которая превосходит GPT-4 как по точности, так и по задержке (latency) при выполнении специфических задач [0:14].

Ведущий Уэс Рот проводит параллель с недавней разработкой Apple — моделью ReALM [0:27]. Apple создала крошечную визуальную модель (в тысячи раз меньше GPT-4), которая лучше понимает происходящее на экране устройства. Octopus v2 движется в том же направлении, фокусируясь на автоматизации рабочих процессов [0:40].

## 🛠️ Что такое «вызов функций» и зачем он нужен агентам
[[JUMP:1:08]]

Для понимания значимости Octopus v2 необходимо разобраться в концепции «вызова функций» (function calling). По словам Рота, это фундамент для создания ИИ-агентов [1:59].

Примеры функций в современной технике:

*   **Смартфоны:** команда «сделать фото» с параметрами выбора камеры (передняя/задняя) и разрешения [1:32].
*   **Информационные сервисы:** получение прогноза погоды или поиск трендовых новостей в конкретном регионе [1:46].
*   **Действия:** отправка электронного письма, установка напоминания в календаре или поиск видео Тейлор Свифт на YouTube [3:30].

Именно способность модели безошибочно определять, какую функцию вызвать и с какими параметрами, делает ИИ «агентом», способным действовать, а не просто генерировать текст.

## 🔐 Проблема облачных моделей: цена и приватность
[[JUMP:1:59]]

Хотя большие модели вроде GPT-4 или Claude показывают отличные результаты, их использование сопряжено с двумя серьезными проблемами, которые отмечает Рот:

1.  **Стоимость:** За каждый запрос к облачной модели приходится платить компаниям-разработчикам (OpenAI или Anthropic) [2:14]. Чем сложнее задача и длиннее контекст, тем выше цена за токены [2:27].
2.  **Приватность:** Все данные пользователя уходят на серверы сторонних компаний, которые могут видеть каждое совершаемое действие [2:40].

По мнению автора видео, локальные модели решают эти проблемы, однако до настоящего времени они страдали от низкой точности и высокой задержки при попытке вызвать нужные функции [2:52].

## 📊 Технические характеристики и триумф над GPT-4
[[JUMP:4:46]]

Octopus v2 построена на базе открытой модели Google Gemma с 2 миллиардами параметров [4:46]. Это относительно небольшой размер, позволяющий запускать её на смартфонах, автомобильных системах или VR-гарнитурах [4:33].

Результаты тестирования в сравнении с конкурентами:

*   **Octopus v2:** продемонстрировала точность выше 99% при задержке менее 0,4 секунды [6:42].
*   **GPT-4 (версия от 25 января):** показала точность 98,57%, но с гораздо большей задержкой — около 1 секунды [7:52].
*   **Llama 7B (с технологией RAG):** оказалась крайне медленной (задержка более 13 секунд) и менее точной (68%) [5:50].
*   **GPT-3.5:** показала хороший результат по точности (98%), но проиграла по скорости (1,97 сек) [6:16].

Особого внимания заслуживает тот факт, что Octopus v2 позволила сократить длину контекста на 95% [3:06]. Это означает, что модели не нужно передавать огромные инструкции с описанием всех доступных функций — она уже «обучена» их понимать.

## 📉 Методы оптимизации: LoRA и тренировочные данные
[[JUMP:6:58]]

Исследователи применили несколько подходов для достижения таких результатов:

1.  **Полноценное обучение vs LoRA:** использовалась технология низкоранговой адаптации (LoRA) для точной настройки модели, что позволяет сохранять высокую эффективность при меньшем количестве параметров [7:11].
2.  **Объем данных:** модель тестировалась на разных наборах данных. Octopus v2 обучалась на 1000 точках данных, в то время как версии с меньшим объемом данных (500 и 100) показали небольшое снижение точности [7:39].

Интересное наблюдение Рота касается производительности GPT-4: она оказалась быстрее и точнее, чем GPT-3.5. Автор предполагает, что OpenAI может выделять больше ресурсов графических процессоров (GPU) для своей флагманской модели или же спрос на неё сейчас ниже, чем на версию 3.5 [8:05].

## 💡 Будущее ИИ: большие против маленьких
[[JUMP:8:43]]

Ситуация с Octopus v2 и Apple ReALM указывает на важный сдвиг в индустрии ИИ. В то время как многие компании делают ставку на «гигантизм» — закупку сотен тысяч чипов, строительство электростанций и наращивание параметров до триллионов — Стэнфорд и Apple доказывают эффективность микро-моделей [9:23].

По мнению Уэса Рота, архитектура ИИ-агентов будущего не обязательно должна быть массивной [8:58]. Для специфических задач (чтение экрана, управление приложениями, вызов функций) маленькие агенты оказываются эффективнее, дешевле и быстрее монстров вроде GPT-4 с её предполагаемыми 1,7 трлн параметров [10:07].

Это открывает путь к повсеместному внедрению ИИ в «умные» устройства (Edge devices) — от холодильников до термостатов, где критически важна скорость реакции и автономность [3:18].