OpenAI против Нильса Реймерса: дебаты вокруг стоимости и качества новых эмбеддингов

Компания OpenAI представила новый инструмент в своей экосистеме — API для генерации эмбеддингов (векторных представлений текста и кода). Это событие вызвало как профессиональный интерес, так и волну критики со стороны экспертного сообщества, поставившего под сомнение эффективность и экономическую целесообразность нового решения.

🚀 Новый виток развития API OpenAI 0:01

После громкого успеха моделей GPT-3 и Codex (технологии, лежащей в основе GitHub Copilot), компания OpenAI расширяет свое присутствие в области семантического анализа . Новый эндпоинт позволяет разработчикам преобразовывать фрагменты текста или кода в векторы фиксированного размера.

Эмбеддинг — это сопоставление единицы контента с точкой в многомерном пространстве. По словам Янника Килчера, это позволяет выполнять поиск по семантическому сходству: чем ближе векторы друг к другу, тем больше общего в значении исходных текстов .

OpenAI предлагает три основных режима работы с новым API :

Text Similarity (сходство текстов): определение близости двух фрагментов текста.
Text Search (поиск по тексту): использование отдельных энкодеров для длинных документов и коротких поисковых запросов для ранжирования релевантности.
Code Search (поиск по коду): аналогичная система для работы с программным кодом.

Модели доступны в нескольких весовых категориях: от самой компактной Ada до флагманской Davinci, которая базируется на архитектуре GPT-3 со 175 миллиардами параметров .

🛠 Технические характеристики и процесс обучения 4:12

Согласно опубликованному OpenAI техническому отчету, новые модели демонстрируют результаты на уровне или выше актуальных SOTA-решений (state-of-the-art) . В частности, они показывают превосходство в задачах классификации с линейным зондированием (linear probe classification) и в бенчмарке BEIR для поиска информации .

Ключевые технические детали:

Метод обучения: использовалась контрастивная функция потерь (contrastive loss). Суть метода в том, чтобы максимально сблизить похожие фрагменты текста в векторном пространстве и отдалить их от «негативных» примеров .
Масштаб: для эффективного обучения потребовались огромные размеры батчей (batch sizes), что, как отмечает Янник Килчер, под силу только крупным игрокам вроде OpenAI .
Размерность векторов: варьируется от 1024 до впечатляющих 12 288 измерений у старших моделей .

⚖️ Критика и «ценовой шок»: позиция Нильса Реймерса 6:08

Вскоре после анонса в сообществе специалистов по машинному обучению разгорелась дискуссия. Основным оппонентом OpenAI выступил исследователь Нильс Реймерс, опубликовавший критический разбор под заголовком «Действительно ли текстовые эмбеддинги GPT-3 от OpenAI являются новым SOTA?» .

Главные аргументы Реймерса против новинки:

Завышенная стоимость: по оценке Реймерса, использование модели Davinci стоит 60 центов за 1000 токенов . При обработке крупных корпусов текста (миллионы документов) стоимость использования OpenAI может достигать $800–$60 000, в то время как открытые модели позволяют добиться аналогичного результата за $2–$7 .
Эффективность моделей: Реймерс утверждает, что протестировал эмбеддинги OpenAI на 20 наборах данных и обнаружил, что они зачастую работают хуже, чем открытые модели, которые в 1000 раз меньше по количеству параметров .
Проблемы размерности: экстремально высокая размерность векторов (12 288) требует огромных затрат памяти для построения поисковых индексов и замедляет процесс поиска . При этом попытки сжать эти векторы через PCA (метод главных компонент) приводят к резкой деградации качества .
Избирательность в отчетах: Реймерс обратил внимание, что из 18 наборов данных бенчмарка BEIR OpenAI выбрала для публикации результатов только 11, что может искажать общую картину производительности .

🔍 Технические нюансы и реакция разработчиков 10:07

Помимо экономических претензий, возникли вопросы к воспроизводимости результатов. Когда Реймерс попытался воспроизвести цифры из отчета OpenAI через текущий API, он получил другие значения. Любопытно, что результаты в API оказались даже лучше, чем заявленные в статье, что наводит на мысли о тихом обновлении моделей .

Также была обнаружена специфическая проблема с форматированием. Исследователь под псевдонимом Guern заметил, что наличие символов новой строки (\n) в запросе делает эмбеддинги практически бесполезными . Хотя OpenAI упоминает о необходимости очистки текста в документации, Реймерс подтвердил, что даже после удаления переносов строк (с использованием кода из примеров самой OpenAI) преимущество моделей остается спорным .

🛡 Аргументы OpenAI: реальный мир против академических тестов 11:55

В ответ на критику авторы OpenAI и представители компании представили свою точку зрения. Они подчеркивают, что их модели сильны в «zero-shot» сценариях (работе без предварительной дообучения на конкретной задаче) .

Позиция сторонников OpenAI:

Превосходство на сложных данных: в таких наборах данных, как FiQA, эмбеддинги OpenAI значительно опережают классические алгоритмы вроде BM25 .
Масштаб затрат в реальности: представители компании утверждают, что для «среднего» набора данных стоимость обработки может составить около $80. По их мнению, заплатить такую сумму за улучшение качества поиска на 6% в реальном бизнес-приложении — это выгодная сделка .
Устойчивость к «грязным» данным: Янник Килчер отмечает, что академические бенчмарки часто слишком «чистые». OpenAI утверждает, что их клиенты видят 6–10-кратное улучшение релевантности на реальных, зашумленных пользовательских данных . Проверить эти заявления со слов клиентов сложно, но Килчер допускает, что огромный объем обучающей выборки OpenAI действительно может давать преимущество в сложных условиях эксплуатации .

🚩 Итоги и вопросы рентабельности 14:50

Вопрос о том, является ли текущая цена API следствием реальных операционных затрат или результатом маркетингового расчета стоимости «ценности для бизнеса», остается открытым .

По мнению Килчера, цена выглядит неоправданно высокой для того скромного прироста производительности, который виден в академических тестах . Тем не менее наличие платящих клиентов у OpenAI свидетельствует о том, что для ряда компаний удобство API и потенциальное преимущество в качестве перевешивают финансовые затраты. Разработчикам же рекомендуется тестировать эмбеддинги на небольших подмножествах своих данных, прежде чем внедрять решение в промышленную эксплуатацию.