Стэнфорд представил Octopus v2: локальный ИИ-агент, обошедший GPT-4 в точности

Исследователи из Стэнфордского университета представили Octopus v2 — компактную языковую модель, предназначенную для работы непосредственно на пользовательских устройствах. Несмотря на свои скромные размеры, эта разработка демонстрирует превосходство над флагманской GPT-4 от OpenAI в задачах, критически важных для функционирования автономных ИИ-агентов.

🐙 Octopus v2: маленький гигант в мире больших моделей 0:00

На рынке автономных ИИ-агентов наметился новый тренд: переход от гигантских облачных систем к компактным локальным решениям . Проект Стэнфорда под названием Octopus v2 представляет собой «on-device» модель (работающую без интернета на смартфонах или ПК), которая превосходит GPT-4 как по точности, так и по задержке (latency) при выполнении специфических задач .

Ведущий Уэс Рот проводит параллель с недавней разработкой Apple — моделью ReALM . Apple создала крошечную визуальную модель (в тысячи раз меньше GPT-4), которая лучше понимает происходящее на экране устройства. Octopus v2 движется в том же направлении, фокусируясь на автоматизации рабочих процессов .

🛠️ Что такое «вызов функций» и зачем он нужен агентам 1:08

Для понимания значимости Octopus v2 необходимо разобраться в концепции «вызова функций» (function calling). По словам Рота, это фундамент для создания ИИ-агентов .

Примеры функций в современной технике:

Смартфоны: команда «сделать фото» с параметрами выбора камеры (передняя/задняя) и разрешения .
Информационные сервисы: получение прогноза погоды или поиск трендовых новостей в конкретном регионе .
Действия: отправка электронного письма, установка напоминания в календаре или поиск видео Тейлор Свифт на YouTube .

Именно способность модели безошибочно определять, какую функцию вызвать и с какими параметрами, делает ИИ «агентом», способным действовать, а не просто генерировать текст.

🔐 Проблема облачных моделей: цена и приватность 1:59

Хотя большие модели вроде GPT-4 или Claude показывают отличные результаты, их использование сопряжено с двумя серьезными проблемами, которые отмечает Рот:

Стоимость: За каждый запрос к облачной модели приходится платить компаниям-разработчикам (OpenAI или Anthropic) . Чем сложнее задача и длиннее контекст, тем выше цена за токены .
Приватность: Все данные пользователя уходят на серверы сторонних компаний, которые могут видеть каждое совершаемое действие .

По мнению автора видео, локальные модели решают эти проблемы, однако до настоящего времени они страдали от низкой точности и высокой задержки при попытке вызвать нужные функции .

📊 Технические характеристики и триумф над GPT-4 4:46

Octopus v2 построена на базе открытой модели Google Gemma с 2 миллиардами параметров . Это относительно небольшой размер, позволяющий запускать её на смартфонах, автомобильных системах или VR-гарнитурах .

Результаты тестирования в сравнении с конкурентами:

Octopus v2: продемонстрировала точность выше 99% при задержке менее 0,4 секунды .
GPT-4 (версия от 25 января): показала точность 98,57%, но с гораздо большей задержкой — около 1 секунды .
Llama 7B (с технологией RAG): оказалась крайне медленной (задержка более 13 секунд) и менее точной (68%) .
GPT-3.5: показала хороший результат по точности (98%), но проиграла по скорости (1,97 сек) .

Особого внимания заслуживает тот факт, что Octopus v2 позволила сократить длину контекста на 95% . Это означает, что модели не нужно передавать огромные инструкции с описанием всех доступных функций — она уже «обучена» их понимать.

📉 Методы оптимизации: LoRA и тренировочные данные 6:58

Исследователи применили несколько подходов для достижения таких результатов:

Полноценное обучение vs LoRA: использовалась технология низкоранговой адаптации (LoRA) для точной настройки модели, что позволяет сохранять высокую эффективность при меньшем количестве параметров .
Объем данных: модель тестировалась на разных наборах данных. Octopus v2 обучалась на 1000 точках данных, в то время как версии с меньшим объемом данных (500 и 100) показали небольшое снижение точности .

Интересное наблюдение Рота касается производительности GPT-4: она оказалась быстрее и точнее, чем GPT-3.5. Автор предполагает, что OpenAI может выделять больше ресурсов графических процессоров (GPU) для своей флагманской модели или же спрос на неё сейчас ниже, чем на версию 3.5 .

💡 Будущее ИИ: большие против маленьких 8:43

Ситуация с Octopus v2 и Apple ReALM указывает на важный сдвиг в индустрии ИИ. В то время как многие компании делают ставку на «гигантизм» — закупку сотен тысяч чипов, строительство электростанций и наращивание параметров до триллионов — Стэнфорд и Apple доказывают эффективность микро-моделей .

По мнению Уэса Рота, архитектура ИИ-агентов будущего не обязательно должна быть массивной . Для специфических задач (чтение экрана, управление приложениями, вызов функций) маленькие агенты оказываются эффективнее, дешевле и быстрее монстров вроде GPT-4 с её предполагаемыми 1,7 трлн параметров .

Это открывает путь к повсеместному внедрению ИИ в «умные» устройства (Edge devices) — от холодильников до термостатов, где критически важна скорость реакции и автономность .