Исследователи из Стэнфордского университета представили Octopus v2 — компактную языковую модель, предназначенную для работы непосредственно на пользовательских устройствах. Несмотря на свои скромные размеры, эта разработка демонстрирует превосходство над флагманской GPT-4 от OpenAI в задачах, критически важных для функционирования автономных ИИ-агентов.
🐙 Octopus v2: маленький гигант в мире больших моделей 0:00
На рынке автономных ИИ-агентов наметился новый тренд: переход от гигантских облачных систем к компактным локальным решениям . Проект Стэнфорда под названием Octopus v2 представляет собой «on-device» модель (работающую без интернета на смартфонах или ПК), которая превосходит GPT-4 как по точности, так и по задержке (latency) при выполнении специфических задач .
Ведущий Уэс Рот проводит параллель с недавней разработкой Apple — моделью ReALM . Apple создала крошечную визуальную модель (в тысячи раз меньше GPT-4), которая лучше понимает происходящее на экране устройства. Octopus v2 движется в том же направлении, фокусируясь на автоматизации рабочих процессов .
🛠️ Что такое «вызов функций» и зачем он нужен агентам 1:08
Для понимания значимости Octopus v2 необходимо разобраться в концепции «вызова функций» (function calling). По словам Рота, это фундамент для создания ИИ-агентов .
Примеры функций в современной технике:
- Смартфоны: команда «сделать фото» с параметрами выбора камеры (передняя/задняя) и разрешения .
- Информационные сервисы: получение прогноза погоды или поиск трендовых новостей в конкретном регионе .
- Действия: отправка электронного письма, установка напоминания в календаре или поиск видео Тейлор Свифт на YouTube .
Именно способность модели безошибочно определять, какую функцию вызвать и с какими параметрами, делает ИИ «агентом», способным действовать, а не просто генерировать текст.
🔐 Проблема облачных моделей: цена и приватность 1:59
Хотя большие модели вроде GPT-4 или Claude показывают отличные результаты, их использование сопряжено с двумя серьезными проблемами, которые отмечает Рот:
- Стоимость: За каждый запрос к облачной модели приходится платить компаниям-разработчикам (OpenAI или Anthropic) . Чем сложнее задача и длиннее контекст, тем выше цена за токены .
- Приватность: Все данные пользователя уходят на серверы сторонних компаний, которые могут видеть каждое совершаемое действие .
По мнению автора видео, локальные модели решают эти проблемы, однако до настоящего времени они страдали от низкой точности и высокой задержки при попытке вызвать нужные функции .
📊 Технические характеристики и триумф над GPT-4 4:46
Octopus v2 построена на базе открытой модели Google Gemma с 2 миллиардами параметров . Это относительно небольшой размер, позволяющий запускать её на смартфонах, автомобильных системах или VR-гарнитурах .
Результаты тестирования в сравнении с конкурентами:
- Octopus v2: продемонстрировала точность выше 99% при задержке менее 0,4 секунды .
- GPT-4 (версия от 25 января): показала точность 98,57%, но с гораздо большей задержкой — около 1 секунды .
- Llama 7B (с технологией RAG): оказалась крайне медленной (задержка более 13 секунд) и менее точной (68%) .
- GPT-3.5: показала хороший результат по точности (98%), но проиграла по скорости (1,97 сек) .
Особого внимания заслуживает тот факт, что Octopus v2 позволила сократить длину контекста на 95% . Это означает, что модели не нужно передавать огромные инструкции с описанием всех доступных функций — она уже «обучена» их понимать.
📉 Методы оптимизации: LoRA и тренировочные данные 6:58
Исследователи применили несколько подходов для достижения таких результатов:
- Полноценное обучение vs LoRA: использовалась технология низкоранговой адаптации (LoRA) для точной настройки модели, что позволяет сохранять высокую эффективность при меньшем количестве параметров .
- Объем данных: модель тестировалась на разных наборах данных. Octopus v2 обучалась на 1000 точках данных, в то время как версии с меньшим объемом данных (500 и 100) показали небольшое снижение точности .
Интересное наблюдение Рота касается производительности GPT-4: она оказалась быстрее и точнее, чем GPT-3.5. Автор предполагает, что OpenAI может выделять больше ресурсов графических процессоров (GPU) для своей флагманской модели или же спрос на неё сейчас ниже, чем на версию 3.5 .
💡 Будущее ИИ: большие против маленьких 8:43
Ситуация с Octopus v2 и Apple ReALM указывает на важный сдвиг в индустрии ИИ. В то время как многие компании делают ставку на «гигантизм» — закупку сотен тысяч чипов, строительство электростанций и наращивание параметров до триллионов — Стэнфорд и Apple доказывают эффективность микро-моделей .
По мнению Уэса Рота, архитектура ИИ-агентов будущего не обязательно должна быть массивной . Для специфических задач (чтение экрана, управление приложениями, вызов функций) маленькие агенты оказываются эффективнее, дешевле и быстрее монстров вроде GPT-4 с её предполагаемыми 1,7 трлн параметров .
Это открывает путь к повсеместному внедрению ИИ в «умные» устройства (Edge devices) — от холодильников до термостатов, где критически важна скорость реакции и автономность .