# OpenAI против Нильса Реймерса: дебаты вокруг стоимости и качества новых эмбеддингов

Источник: https://www.youtube.com/watch?v=5skIqoO3ku0
Канал: Yannic Kilcher
Опубликовано: 07.02.2022

---

Компания OpenAI представила новый инструмент в своей экосистеме — API для генерации эмбеддингов (векторных представлений текста и кода). Это событие вызвало как профессиональный интерес, так и волну критики со стороны экспертного сообщества, поставившего под сомнение эффективность и экономическую целесообразность нового решения.

## 🚀 Новый виток развития API OpenAI
[[JUMP:00:01]]

После громкого успеха моделей GPT-3 и Codex (технологии, лежащей в основе GitHub Copilot), компания OpenAI расширяет свое присутствие в области семантического анализа [00:15]. Новый эндпоинт позволяет разработчикам преобразовывать фрагменты текста или кода в векторы фиксированного размера. 

Эмбеддинг — это сопоставление единицы контента с точкой в многомерном пространстве. По словам Янника Килчера, это позволяет выполнять поиск по семантическому сходству: чем ближе векторы друг к другу, тем больше общего в значении исходных текстов [02:25]. 

OpenAI предлагает три основных режима работы с новым API [02:51]:

*   **Text Similarity (сходство текстов):** определение близости двух фрагментов текста.
*   **Text Search (поиск по тексту):** использование отдельных энкодеров для длинных документов и коротких поисковых запросов для ранжирования релевантности.
*   **Code Search (поиск по коду):** аналогичная система для работы с программным кодом.

Модели доступны в нескольких весовых категориях: от самой компактной **Ada** до флагманской **Davinci**, которая базируется на архитектуре GPT-3 со 175 миллиардами параметров [03:44].

## 🛠 Технические характеристики и процесс обучения
[[JUMP:04:12]]

Согласно опубликованному OpenAI техническому отчету, новые модели демонстрируют результаты на уровне или выше актуальных SOTA-решений (state-of-the-art) [03:58]. В частности, они показывают превосходство в задачах классификации с линейным зондированием (linear probe classification) и в бенчмарке BEIR для поиска информации [04:26].

Ключевые технические детали:

*   **Метод обучения:** использовалась контрастивная функция потерь (contrastive loss). Суть метода в том, чтобы максимально сблизить похожие фрагменты текста в векторном пространстве и отдалить их от «негативных» примеров [04:38].
*   **Масштаб:** для эффективного обучения потребовались огромные размеры батчей (batch sizes), что, как отмечает Янник Килчер, под силу только крупным игрокам вроде OpenAI [04:50].
*   **Размерность векторов:** варьируется от 1024 до впечатляющих 12 288 измерений у старших моделей [05:03]. 

## ⚖️ Критика и «ценовой шок»: позиция Нильса Реймерса
[[JUMP:06:08]]

Вскоре после анонса в сообществе специалистов по машинному обучению разгорелась дискуссия. Основным оппонентом OpenAI выступил исследователь Нильс Реймерс, опубликовавший критический разбор под заголовком «Действительно ли текстовые эмбеддинги GPT-3 от OpenAI являются новым SOTA?» [07:15].

Главные аргументы Реймерса против новинки:

1.  **Завышенная стоимость:** по оценке Реймерса, использование модели Davinci стоит 60 центов за 1000 токенов [06:22]. При обработке крупных корпусов текста (миллионы документов) стоимость использования OpenAI может достигать $800–$60 000, в то время как открытые модели позволяют добиться аналогичного результата за $2–$7 [08:23].
2.  **Эффективность моделей:** Реймерс утверждает, что протестировал эмбеддинги OpenAI на 20 наборах данных и обнаружил, что они зачастую работают хуже, чем открытые модели, которые в 1000 раз меньше по количеству параметров [07:02].
3.  **Проблемы размерности:** экстремально высокая размерность векторов (12 288) требует огромных затрат памяти для построения поисковых индексов и замедляет процесс поиска [09:29]. При этом попытки сжать эти векторы через PCA (метод главных компонент) приводят к резкой деградации качества [09:42].
4.  **Избирательность в отчетах:** Реймерс обратил внимание, что из 18 наборов данных бенчмарка BEIR OpenAI выбрала для публикации результатов только 11, что может искажать общую картину производительности [07:43].

## 🔍 Технические нюансы и реакция разработчиков
[[JUMP:10:07]]

Помимо экономических претензий, возникли вопросы к воспроизводимости результатов. Когда Реймерс попытался воспроизвести цифры из отчета OpenAI через текущий API, он получил другие значения. Любопытно, что результаты в API оказались даже лучше, чем заявленные в статье, что наводит на мысли о тихом обновлении моделей [10:21].

Также была обнаружена специфическая проблема с форматированием. Исследователь под псевдонимом Guern заметил, что наличие символов новой строки (`\n`) в запросе делает эмбеддинги практически бесполезными [10:35]. Хотя OpenAI упоминает о необходимости очистки текста в документации, Реймерс подтвердил, что даже после удаления переносов строк (с использованием кода из примеров самой OpenAI) преимущество моделей остается спорным [10:50].

## 🛡 Аргументы OpenAI: реальный мир против академических тестов
[[JUMP:11:55]]

В ответ на критику авторы OpenAI и представители компании представили свою точку зрения. Они подчеркивают, что их модели сильны в «zero-shot» сценариях (работе без предварительной дообучения на конкретной задаче) [12:08].

Позиция сторонников OpenAI:

*   **Превосходство на сложных данных:** в таких наборах данных, как FiQA, эмбеддинги OpenAI значительно опережают классические алгоритмы вроде BM25 [12:22].
*   **Масштаб затрат в реальности:** представители компании утверждают, что для «среднего» набора данных стоимость обработки может составить около $80. По их мнению, заплатить такую сумму за улучшение качества поиска на 6% в реальном бизнес-приложении — это выгодная сделка [12:36].
*   **Устойчивость к «грязным» данным:** Янник Килчер отмечает, что академические бенчмарки часто слишком «чистые». OpenAI утверждает, что их клиенты видят 6–10-кратное улучшение релевантности на реальных, зашумленных пользовательских данных [14:11]. Проверить эти заявления со слов клиентов сложно, но Килчер допускает, что огромный объем обучающей выборки OpenAI действительно может давать преимущество в сложных условиях эксплуатации [14:36].

## 🚩 Итоги и вопросы рентабельности
[[JUMP:14:50]]

Вопрос о том, является ли текущая цена API следствием реальных операционных затрат или результатом маркетингового расчета стоимости «ценности для бизнеса», остается открытым [15:02].

По мнению Килчера, цена выглядит неоправданно высокой для того скромного прироста производительности, который виден в академических тестах [15:14]. Тем не менее наличие платящих клиентов у OpenAI свидетельствует о том, что для ряда компаний удобство API и потенциальное преимущество в качестве перевешивают финансовые затраты. Разработчикам же рекомендуется тестировать эмбеддинги на небольших подмножествах своих данных, прежде чем внедрять решение в промышленную эксплуатацию.