Почему результаты популярного ИИ-рейтинга LMArena оказались под вопросом

Платформа LMArena долгое время считалась «золотым стандартом» оценки больших языковых моделей, определяющим репутацию и миллиардные инвестиции в ИТ-индустрии. Однако недавнее исследование компании Cohere и откровенные признания лидеров рынка, включая Марка Цукерберга, ставят под сомнение беспристрастность этого рейтинга. Автор канала Machine Learning Street Talk разбирается, действительно ли главная ИИ-арена планеты оказалась «подкрученной» и как разработчики манипулируют её результатами.

🎭 Иллюзия лидерства: как устроено «хакерство» ИИ-моделей 0:00

Платформа LMArena (ранее известная как Chatbot Arena) превратилась в безусловного лидера ИИ-рейтингов. По оценкам изданий Wall Street Journal и Bloomberg, позиции моделей на этой платформе напрямую влияют на распределение огромных финансовых потоков в индустрии. Влияние площадки подтверждается и её коммерческим успехом: проект привлеки $100 млн инвестиций от фондов Andreessen Horowitz и UC investments, получив общую оценку в $600 млн.

Однако за внешним успехом скрываются серьезные проблемы. По мнению ведущего Machine Learning Street Talk, традиционные статические тесты (бенчмарки) стремительно устаревают и не отражают реальные возможности моделей в повседневных задачах. Это вынуждает индустрию полагаться на «живую» оценку пользователей, которая, как выяснилось, легко поддается манипуляциям. В частности, Марк Цукерберг в одном из недавних подкастов открыто признал, что команда Meta фактически «взломала» Chatbot Arena при подготовке LLaMA 4 Maverick. Разработчики создавали десятки приватных версий, тестировали их внутри системы и целенаправленно дообучали (файнтюнили) модели на специфических данных самой арены. По мнению Цукерберга, многие современные ИИ-рейтинги легко обмануть, так как они оптимизированы под узкие сценарии, не имеющие отношения к реальному пользовательскому опыту.

📉 Синдром Гудхарта: когда метрика становится целью 3:04

Представители компании Cohere, включая Ника Фроста, выражали обеспокоенность тем, как незначительные изменения в форматировании ответов или системных промптах (преамбулах) могут кардинально менять человеческое восприятие качества модели и искусственно завышать её Elo-рейтинг. По оценке ведущего, LMArena пала жертвой закона Гудхарта: когда метрика становится главной целью, она перестает быть хорошей метрикой. Модели оптимизируются для победы на арене, а не для развития реального интеллекта.

Сложность оценки ИИ наглядно демонстрирует феномен, который ведущий иронично называет «эффектом Дэвида Шапиро»: как только новая модель возглавляет топ LMArena, эксперты тут же начинают заявлять о скором приходе сильного ИИ (AGI) и постиндустриальной экономике. При этом реальное различие между версиями становится все более неуловимым. Известный ИИ-исследователь Андрей Карпати делился своим опытом тестирования моделей от GPT-2 до GPT-4, отмечая, что качественные скачки сменились едва заметными диффузными улучшениями.

Карпати провел мини-эксперимент в Twitter, предложив подписчикам вслепую сравнить ответы GPT-4.5 и более старой GPT-4 Base. К его удивлению, в 4 из 5 случаев пользователи проголосовали за старую модель. Сам Карпати посчитал, что его личный вкус оказался просто «более изысканным», поскольку он замечает тонкие дефекты: по его мнению, новые модели часто выдают внешне корректные, но избыточно формульные, банальные или «кринжевые» ответы.

🕹️ Механика Tinder для чат-ботов и системные сбои 6:40

История проекта началась в апреле 2023 года, когда два аспиранта Беркли — Анастасиос Ангелопулос и Вэй Линь Чан — за одну неделю создали сайт для слепого сравнения ответов языковых моделей. Интерфейс напоминал приложение Tinder: пользователь вводит любой поисковый запрос (будь то теория хаоса или споры об авторстве архитектуры трансформеров), получает два анонимных ответа и выбирает лучший. На основе этих голосов рассчитывается рейтинг Elo, заимствованный из шахматной сферы.

К концу 2023 года база данных проекта насчитывала более 130 000 голосов, однако пользователи начали жаловаться на нестабильность и колебания оценок. Команда исследователей Cohere под руководством Сары Хукер указала на фундаментальную методологическую ошибку: алгоритм Elo создавался для динамически меняющихся навыков людей (например, шахматистов), в то время как веса замороженной ИИ-модели неизменны. В шахматах порядок игр не влияет на глобальную силу гроссмейстера, но на ИИ-арене последовательность сравнений может существенно исказить итоговый балл. Чтобы сгладить этот эффект, платформа перешла на модель Брэдли-Терри, которая рассчитывает показатели статично для всего массива данных сразу.

🕵️‍♂️ Четыре греха LMArena: выводы исследования Cohere 15:12

Группа исследователей из Cohere (Шива Сингх, Марзия Фадиа, Сара Хукер и Сейдж Капур) опубликовала резонансную работу под названием «Иллюзия лидербордов» (The Leaderboard Illusion), в которой детально разобрала скрытые механизмы LMArena. Авторы выделили несколько критических факторов, нарушающих принцип честной конкуренции.

Основные проблемы платформы, согласно докладу Cohere:

Привилегированный доступ и право на отзыв: Крупнейшие технологические гиганты (Meta, Google, OpenAI, Amazon) имеют возможность тестировать свои модели в приватном режиме. Исследователи зафиксировали случай, когда Meta в течение одного месяца тайно прогоняла через арену 27 различных модификаций своей модели перед официальным релизом LLaMA 4. Разработчики могут беспрепятственно удалять (отзывать) неудачные версии, публикуя только те, что набрали наивысший балл.
Неравное распределение пользовательского трафика: Коммерческие закрытые (proprietary) модели получают несопоставимо больше сессий сравнения. В первом квартале 2025 года на долю проприетарных моделей пришлось почти 70% всех битв, в то время как открытые модели (open weights и open source) получили лишь 23,1% и 9,2% соответственно. Модели Google и OpenAI тотально доминируют в выборке.
Использование данных арены для файнтьюнинга: Доступ к логам пользовательских промптов дает колоссальное преимущество. В ходе контролируемого эксперимента эксперты Cohere доказали: если увеличить долю данных из LMArena в обучающей выборке с 0% до 70%, винрейт (доля побед) модели в слепых тестах взлетает с 23,5% до 49,9%. В другом тесте показатели выросли с 50% до 79,2%.
Тайные удаления (депрекация): Около 205 моделей были скрытно исключены из активного пула генерации битв, хотя номинально они остаются в таблице лидеров. Это приводит к разреженности графа сравнений. Модель Брэдли-Терри требует плотных перекрестных связей, а появление изолированных «островков» данных делает итоговый рейтинг математически недостоверным.

Администрация LMArena объясняет перекос в сторону ИТ-гигантов тем, что пользователи сами хотят тестировать только самые раскрученные и «блестящие» новинки. При этом, по замечанию ведущего, создатели платформы еще в 2024 году сами написали научную работу об адаптивной стратегии сэмплинга для минимизации неопределенности, но внедрять собственные рекомендации на практике почему-то не спешат.

📊 Стабильность вкусов: почему пользователи не оригинальны 23:41

Теоретическая ценность LMArena строится на тезисе о том, что поток пользовательских запросов постоянно меняется и обновляется, выступая «живым» отражением реальности. Анализ Cohere опровергает это суждение. Исследователи провели оценку семантического сходства промптов за разные месяцы и выявили поразительную монотонность.

Факты о поведении пользователей на платформе:

От 25% до 33% всех текстовых запросов имеют экстремально высокую степень сходства (косинусное сходство эмбеддингов превышает 0,95).
В зависимости от месяца от 16% до 26,5% промптов оказываются абсолютно идентичными.

По мнению авторов видео, люди в своей массе не слишком креативны: они регулярно задают ботам одни и те же логические загадки или вопросы по сериалу «Звездный путь» (Star Trek). Почти половина пула данных дублируется из месяца в месяц. Следовательно, если компания имеет доступ к архивам LMArena, она может легко обучить модель безупречно отвечать на этот статичный набор вопросов, гарантируя себе искусственную победу в рейтинге.

🛠️ Путь к исправлению: рекомендации и реакция платформы 22:20

Чтобы вернуть доверие к индустрии, команда Cohere предложила ряд жестких реформ для реорганизации работы ИИ-арены.

Рекомендации по исправлению методологии LMArena:

Запретить выборочный отзыв и удаление оценок после официальной отправки модели на платформу.
Ввести прозрачные и единые лимиты на количество одновременно тестируемых приватных моделей (не более 3–5 штук на одного провайдера).
Обеспечить равные условия удаления устаревших версий как для коммерческих, так и для открытых архитектур.
Внедрить честный сэмплинг пар на основе снижения математической неопределенности, а не популярности брендов.
Публично раскрывать информацию о депрекации и выводе моделей из активного оборота.

Ведущий Machine Learning Street Talk отмечает, что реакция LMArena на критику Сары Хукер выглядела уклоничивой и странной. Администрация проигнорировала ключевые методологические замечания, выпустив поверхностный блог-пост. А ровно через неделю после публикации разоблачений было объявлено о получении платформой тех самых $100 млн инвестиций. Тем не менее, автор канала призывает не списывать проект со счетов, признавая, что LMArena по-прежнему несет в себе большую ценность («альфу») для индустрии, если её руководство согласится на глубокую прозрачность.