OpenAI против Нильса Реймерса: дебаты вокруг стоимости и качества новых эмбеддингов

Yannic Kilcher 33,9 тыс. 15 мин 4 мин 07.02.2022
Главное

Компания OpenAI представила новый инструмент в своей экосистеме — API для генерации эмбеддингов (векторных представлений текста и кода). Это событие вызвало как профессиональный интерес, так и волну критики со стороны экспертного сообщества, поставившего под сомнение эффективность и экономическую целесообразность нового решения.

🚀 Новый виток развития API OpenAI 0:01

После громкого успеха моделей GPT-3 и Codex (технологии, лежащей в основе GitHub Copilot), компания OpenAI расширяет свое присутствие в области семантического анализа . Новый эндпоинт позволяет разработчикам преобразовывать фрагменты текста или кода в векторы фиксированного размера.

Эмбеддинг — это сопоставление единицы контента с точкой в многомерном пространстве. По словам Янника Килчера, это позволяет выполнять поиск по семантическому сходству: чем ближе векторы друг к другу, тем больше общего в значении исходных текстов .

OpenAI предлагает три основных режима работы с новым API :

Модели доступны в нескольких весовых категориях: от самой компактной Ada до флагманской Davinci, которая базируется на архитектуре GPT-3 со 175 миллиардами параметров .

🛠 Технические характеристики и процесс обучения 4:12

Согласно опубликованному OpenAI техническому отчету, новые модели демонстрируют результаты на уровне или выше актуальных SOTA-решений (state-of-the-art) . В частности, они показывают превосходство в задачах классификации с линейным зондированием (linear probe classification) и в бенчмарке BEIR для поиска информации .

Ключевые технические детали:

⚖️ Критика и «ценовой шок»: позиция Нильса Реймерса 6:08

Вскоре после анонса в сообществе специалистов по машинному обучению разгорелась дискуссия. Основным оппонентом OpenAI выступил исследователь Нильс Реймерс, опубликовавший критический разбор под заголовком «Действительно ли текстовые эмбеддинги GPT-3 от OpenAI являются новым SOTA?» .

Главные аргументы Реймерса против новинки:

  1. Завышенная стоимость: по оценке Реймерса, использование модели Davinci стоит 60 центов за 1000 токенов . При обработке крупных корпусов текста (миллионы документов) стоимость использования OpenAI может достигать $800–$60 000, в то время как открытые модели позволяют добиться аналогичного результата за $2–$7 .
  2. Эффективность моделей: Реймерс утверждает, что протестировал эмбеддинги OpenAI на 20 наборах данных и обнаружил, что они зачастую работают хуже, чем открытые модели, которые в 1000 раз меньше по количеству параметров .
  3. Проблемы размерности: экстремально высокая размерность векторов (12 288) требует огромных затрат памяти для построения поисковых индексов и замедляет процесс поиска . При этом попытки сжать эти векторы через PCA (метод главных компонент) приводят к резкой деградации качества .
  4. Избирательность в отчетах: Реймерс обратил внимание, что из 18 наборов данных бенчмарка BEIR OpenAI выбрала для публикации результатов только 11, что может искажать общую картину производительности .

🔍 Технические нюансы и реакция разработчиков 10:07

Помимо экономических претензий, возникли вопросы к воспроизводимости результатов. Когда Реймерс попытался воспроизвести цифры из отчета OpenAI через текущий API, он получил другие значения. Любопытно, что результаты в API оказались даже лучше, чем заявленные в статье, что наводит на мысли о тихом обновлении моделей .

Также была обнаружена специфическая проблема с форматированием. Исследователь под псевдонимом Guern заметил, что наличие символов новой строки (\n) в запросе делает эмбеддинги практически бесполезными . Хотя OpenAI упоминает о необходимости очистки текста в документации, Реймерс подтвердил, что даже после удаления переносов строк (с использованием кода из примеров самой OpenAI) преимущество моделей остается спорным .

🛡 Аргументы OpenAI: реальный мир против академических тестов 11:55

В ответ на критику авторы OpenAI и представители компании представили свою точку зрения. Они подчеркивают, что их модели сильны в «zero-shot» сценариях (работе без предварительной дообучения на конкретной задаче) .

Позиция сторонников OpenAI:

🚩 Итоги и вопросы рентабельности 14:50

Вопрос о том, является ли текущая цена API следствием реальных операционных затрат или результатом маркетингового расчета стоимости «ценности для бизнеса», остается открытым .

По мнению Килчера, цена выглядит неоправданно высокой для того скромного прироста производительности, который виден в академических тестах . Тем не менее наличие платящих клиентов у OpenAI свидетельствует о том, что для ряда компаний удобство API и потенциальное преимущество в качестве перевешивают финансовые затраты. Разработчикам же рекомендуется тестировать эмбеддинги на небольших подмножествах своих данных, прежде чем внедрять решение в промышленную эксплуатацию.

💬 Цитаты

«Для некоторых задач можно получить гораздо лучшую производительность с открытыми моделями при удивительно низкой стоимости.»

Янник Килчер 08:08

«Потратить 80 долларов за 6% относительного улучшения кажется неплохой сделкой.»

Янник Килчер 13:03
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Эмбеддинг (Embedding)
Векторное представление текста, где семантически похожие слова или фразы имеют близкие координаты.
Zero-shot
Способность модели решать задачу без предварительного обучения на специфических примерах для этой задачи.
Contrastive loss
Функция потерь, используемая для обучения моделей сопоставлять похожие объекты и разделять непохожие.
SOTA (State-of-the-Art)
Наилучший доступный уровень развития технологии или точности модели на текущий момент.
📊 Цифры
🗓 Хронология
  1. Январь 2022 OpenAI объявляет о запуске эндпоинта для эмбеддингов в своем API.
  2. Январь 2022 Нильс Реймерс публикует критический разбор производительности и стоимости моделей OpenAI.
⚖️ Другая сторона
Искусственный интеллект OpenAI Embeddings GPT-3 Niels Reimers Yannic Kilcher