Почему результаты популярного ИИ-рейтинга LMArena оказались под вопросом

Machine Learning Street Talk 18,7 тыс. 26 мин 6 мин 08.06.2025
Главное

Платформа LMArena долгое время считалась «золотым стандартом» оценки больших языковых моделей, определяющим репутацию и миллиардные инвестиции в ИТ-индустрии. Однако недавнее исследование компании Cohere и откровенные признания лидеров рынка, включая Марка Цукерберга, ставят под сомнение беспристрастность этого рейтинга. Автор канала Machine Learning Street Talk разбирается, действительно ли главная ИИ-арена планеты оказалась «подкрученной» и как разработчики манипулируют её результатами.

🎭 Иллюзия лидерства: как устроено «хакерство» ИИ-моделей 0:00

Платформа LMArena (ранее известная как Chatbot Arena) превратилась в безусловного лидера ИИ-рейтингов. По оценкам изданий Wall Street Journal и Bloomberg, позиции моделей на этой платформе напрямую влияют на распределение огромных финансовых потоков в индустрии. Влияние площадки подтверждается и её коммерческим успехом: проект привлеки $100 млн инвестиций от фондов Andreessen Horowitz и UC investments, получив общую оценку в $600 млн.

Однако за внешним успехом скрываются серьезные проблемы. По мнению ведущего Machine Learning Street Talk, традиционные статические тесты (бенчмарки) стремительно устаревают и не отражают реальные возможности моделей в повседневных задачах. Это вынуждает индустрию полагаться на «живую» оценку пользователей, которая, как выяснилось, легко поддается манипуляциям. В частности, Марк Цукерберг в одном из недавних подкастов открыто признал, что команда Meta фактически «взломала» Chatbot Arena при подготовке LLaMA 4 Maverick. Разработчики создавали десятки приватных версий, тестировали их внутри системы и целенаправленно дообучали (файнтюнили) модели на специфических данных самой арены. По мнению Цукерберга, многие современные ИИ-рейтинги легко обмануть, так как они оптимизированы под узкие сценарии, не имеющие отношения к реальному пользовательскому опыту.

📉 Синдром Гудхарта: когда метрика становится целью 3:04

Представители компании Cohere, включая Ника Фроста, выражали обеспокоенность тем, как незначительные изменения в форматировании ответов или системных промптах (преамбулах) могут кардинально менять человеческое восприятие качества модели и искусственно завышать её Elo-рейтинг. По оценке ведущего, LMArena пала жертвой закона Гудхарта: когда метрика становится главной целью, она перестает быть хорошей метрикой. Модели оптимизируются для победы на арене, а не для развития реального интеллекта.

Сложность оценки ИИ наглядно демонстрирует феномен, который ведущий иронично называет «эффектом Дэвида Шапиро»: как только новая модель возглавляет топ LMArena, эксперты тут же начинают заявлять о скором приходе сильного ИИ (AGI) и постиндустриальной экономике. При этом реальное различие между версиями становится все более неуловимым. Известный ИИ-исследователь Андрей Карпати делился своим опытом тестирования моделей от GPT-2 до GPT-4, отмечая, что качественные скачки сменились едва заметными диффузными улучшениями.

Карпати провел мини-эксперимент в Twitter, предложив подписчикам вслепую сравнить ответы GPT-4.5 и более старой GPT-4 Base. К его удивлению, в 4 из 5 случаев пользователи проголосовали за старую модель. Сам Карпати посчитал, что его личный вкус оказался просто «более изысканным», поскольку он замечает тонкие дефекты: по его мнению, новые модели часто выдают внешне корректные, но избыточно формульные, банальные или «кринжевые» ответы.

🕹️ Механика Tinder для чат-ботов и системные сбои 6:40

История проекта началась в апреле 2023 года, когда два аспиранта Беркли — Анастасиос Ангелопулос и Вэй Линь Чан — за одну неделю создали сайт для слепого сравнения ответов языковых моделей. Интерфейс напоминал приложение Tinder: пользователь вводит любой поисковый запрос (будь то теория хаоса или споры об авторстве архитектуры трансформеров), получает два анонимных ответа и выбирает лучший. На основе этих голосов рассчитывается рейтинг Elo, заимствованный из шахматной сферы.

К концу 2023 года база данных проекта насчитывала более 130 000 голосов, однако пользователи начали жаловаться на нестабильность и колебания оценок. Команда исследователей Cohere под руководством Сары Хукер указала на фундаментальную методологическую ошибку: алгоритм Elo создавался для динамически меняющихся навыков людей (например, шахматистов), в то время как веса замороженной ИИ-модели неизменны. В шахматах порядок игр не влияет на глобальную силу гроссмейстера, но на ИИ-арене последовательность сравнений может существенно исказить итоговый балл. Чтобы сгладить этот эффект, платформа перешла на модель Брэдли-Терри, которая рассчитывает показатели статично для всего массива данных сразу.

🕵️‍♂️ Четыре греха LMArena: выводы исследования Cohere 15:12

Группа исследователей из Cohere (Шива Сингх, Марзия Фадиа, Сара Хукер и Сейдж Капур) опубликовала резонансную работу под названием «Иллюзия лидербордов» (The Leaderboard Illusion), в которой детально разобрала скрытые механизмы LMArena. Авторы выделили несколько критических факторов, нарушающих принцип честной конкуренции.

Основные проблемы платформы, согласно докладу Cohere:

Администрация LMArena объясняет перекос в сторону ИТ-гигантов тем, что пользователи сами хотят тестировать только самые раскрученные и «блестящие» новинки. При этом, по замечанию ведущего, создатели платформы еще в 2024 году сами написали научную работу об адаптивной стратегии сэмплинга для минимизации неопределенности, но внедрять собственные рекомендации на практике почему-то не спешат.

📊 Стабильность вкусов: почему пользователи не оригинальны 23:41

Теоретическая ценность LMArena строится на тезисе о том, что поток пользовательских запросов постоянно меняется и обновляется, выступая «живым» отражением реальности. Анализ Cohere опровергает это суждение. Исследователи провели оценку семантического сходства промптов за разные месяцы и выявили поразительную монотонность.

Факты о поведении пользователей на платформе:

По мнению авторов видео, люди в своей массе не слишком креативны: они регулярно задают ботам одни и те же логические загадки или вопросы по сериалу «Звездный путь» (Star Trek). Почти половина пула данных дублируется из месяца в месяц. Следовательно, если компания имеет доступ к архивам LMArena, она может легко обучить модель безупречно отвечать на этот статичный набор вопросов, гарантируя себе искусственную победу в рейтинге.

🛠️ Путь к исправлению: рекомендации и реакция платформы 22:20

Чтобы вернуть доверие к индустрии, команда Cohere предложила ряд жестких реформ для реорганизации работы ИИ-арены.

Рекомендации по исправлению методологии LMArena:

  1. Запретить выборочный отзыв и удаление оценок после официальной отправки модели на платформу.
  2. Ввести прозрачные и единые лимиты на количество одновременно тестируемых приватных моделей (не более 3–5 штук на одного провайдера).
  3. Обеспечить равные условия удаления устаревших версий как для коммерческих, так и для открытых архитектур.
  4. Внедрить честный сэмплинг пар на основе снижения математической неопределенности, а не популярности брендов.
  5. Публично раскрывать информацию о депрекации и выводе моделей из активного оборота.

Ведущий Machine Learning Street Talk отмечает, что реакция LMArena на критику Сары Хукер выглядела уклоничивой и странной. Администрация проигнорировала ключевые методологические замечания, выпустив поверхностный блог-пост. А ровно через неделю после публикации разоблачений было объявлено о получении платформой тех самых $100 млн инвестиций. Тем не менее, автор канала призывает не списывать проект со счетов, признавая, что LMArena по-прежнему несет в себе большую ценность («альфу») для индустрии, если её руководство согласится на глубокую прозрачность.

💬 Цитаты

«Мы были заняты файнтьюнингом под бенчмарк арены. У нас не было намерения публиковать эту модель, мы просто накручивали очки.»

Марк Цукерберг 02:34

«Когда метрика становится целью, она перестает быть хорошей метрикой.»

Ведущий Machine Learning Street Talk 13:17
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Файнтьюнинг
Процесс дообучения уже готовой нейросети на узком наборе данных для улучшения конкретных навыков.
Рейтинг Elo
Метод расчета относительной силы игроков в играх с парными состязаниями, изначально созданный для шахмат.
Модель Брэдли-Терри
Математическая модель для предсказания исходов парных сравнений, предполагающая неизменность силы участников.
Депрекация
Скрытое или официальное исключение модели из активного тестирования при сохранении её в лидерборде.
Косинусное сходство
Мера сходства между двумя векторами (в данном случае текстовыми эмбеддингами), определяющая близость их смыслов.
📊 Цифры
🗓 Хронология
  1. Апрель 2023 года Аспиранты Беркли Анастасиос Ангелопулос и Вэй Линь Чан создают прототип краудсорсинговой платформы ИИ-тестов.
  2. Июль 2023 года Платформа расширяется до 22 моделей, включает Claude 1 и GPT-3.5, собрав 53 000 голосов.
  3. Конец 2023 года База данных LMArena превышает 130 000 голосов; пользователи заявляют о нестабильности рейтинга Elo.
  4. Первый квартал 2025 года Показатели фиксируют критический дисбаланс: около 70% трафика платформы уходит крупным проприетарным моделям.
⚖️ Другая сторона
Искусственный интеллект LMArena Cohere Mark Zuckerberg Chatbot Arena Закон Гудхарта