# Как победить контаминацию: миссия LMArena по созданию надежного ИИ

Источник: https://www.youtube.com/watch?v=YP3Vmh4tYog
Канал: a16z (Andreessen Horowitz)
Опубликовано: 29.05.2025

---

В новом выпуске подкаста венчурного фонда a16z создатели краудсорсинговой платформы LMArena (ранее Chatbot Arena) обсуждают глобальную смену парадигмы в оценке искусственного интеллекта. Исследователи из Беркли объясняют, почему традиционные статичные тесты больше не работают и как миллионы пользовательских предпочтений превращают хаотичный ИИ в надежную инженерную систему. На основе этой беседы мы подготовили подробный разбор того, как зарождался главный независимый бенчмарк Кремниевой долины и куда движутся технологии умной маршрутизации моделей.

## 🎯 От живого экзамена к миссии надежности ИИ
[[JUMP:0:08]]

По мнению ведущего подкаста, платформу LMArena можно охарактеризовать как «экзамен для человечества в режиме реального времени». В эпоху стремительного развития ИИ классический вопрос о том, какой финальный статичный тест должна сдать модель перед развертыванием, теряет актуальность. Гости студии убеждены, что вместо этого индустрия должна сосредоточиться на непрерывном тестировании систем в реальных условиях («в дикой природе»), проверяя их каждую минуту и секунду. Статичные бенчмарки, такие как MMLU, сыграли свою важную роль три года назад, но будущее ИИ-оценки лежит в плоскости динамических систем.

Переход от простых потребительских чат-ботов к критически важным сферам применения — обороне, здравоохранению и финансовым услугам — требует принципиально иного уровня надежности. Команда LMArena основала коммерческую компанию именно для того, чтобы масштабировать свою платформу под новые вызовы. На данный момент площадка обслуживает около 1 миллиона пользователей ежемесячно. В планах разработчиков — десятикратное увеличение аудитории для охвата специфических отраслей. 

Профессор Ион Стоика прогнозирует появление специализированных микро-сайтов внутри экосистемы:

* Площадки для физиков-ядерщиков;
* Пространства для радиологов и практикующих врачей.

В коммерческом секторе уже существует высокий спрос на развертывание приватных аналогов Arena внутри корпоративной инфраструктуры оборонных и технологических компаний. Ион Стоика опровергает популярный миф о том, что в точных науках или оборонной сфере все вопросы пользователей являются строго фактологическими и сводятся к банальному поиску в базе данных. На самом деле, даже в критически важных индустриях большинство запросов носят субъективный характер. Большая языковая модель ценна именно способностью интерполировать информацию, работать с нечетко сформулированными вопросами и грязными данными, где классический поиск бессилен.

Сегодня LMArena стала главным арбитром для крупнейших ИИ-лабораторий мира. Илон Маск строит презентацию Grok 3 вокруг показателей платформы, а Демис Хассабис использует оценки WebDev Arena для демонстрации превосходства Gemini. Платформа сохраняет нейтралитет и одинаково активно сотрудничает как с гигантами индустрии, так и с небольшими open-source командами. Важным направлением работы стало предрелизное тестирование: разработчики загружают модели на платформу тайно, чтобы на основе предпочтений реальных пользователей выбрать наилучшую версию для официального выпуска. Это превращает субъективные человеческие оценки в ключевой элемент конвейера непрерывной интеграции и доставки (CI/CD) современных нейросетей.

## ⚔️ Рождение из академического фана: история проекта Vicuna
[[JUMP:29:48]]

История проекта началась весной 2023 года в Калифорнийском университете в Беркли. Команда PhD-студентов работала над моделью Vicuna — одним из первых открытых клонов ChatGPT на базе первой версии LLaMA от Meta. На тот момент базовая LLaMA-1 была исключительно предобученной моделью, не умевшей поддерживать диалог с человеком. Понятие «post-training» еще не вошло в обиход, и исследователи экспериментировали с тем, что тогда называлось «instruction fine-tuning».

Один из создателей проекта, Вэй-Линь Чанг, предложил использовать для обучения открытый датасет ShareGPT — собранную пользователями коллекцию высококачественных диалогов с ChatGPT. Студенты поставили амбициозную цель — обучить и выпустить рабочую модель всего за две недели. Результат превзошел ожидания, однако внутри лаборатории разгорелась жесткая дискуссия о методах оценки качества получившегося чат-бота.

Исследователи рассматривали два пути:

1.  Самостоятельно составить пул вопросов и вручную разметить ответы;
2.  Разработать автоматизированный метод оценки.

Поскольку времени не хватало, а в марте 2023 года OpenAI как раз выпустила GPT-4, команда решилась на радикальный шаг — использовать флагманскую модель в качестве автоматического судьи (подход LLM-as-a-Judge). Изначально в академической среде к этой идее отнеслись скептически, но метод показал поразительную эффективность. На конференции NeurIPS один из ведущих исследователей OpenAI даже в шутку (или всерьез) обвинил команду Беркли в нарушении условий обслуживания, предположив, что Vicuna — это просто замаскированная перепродажа API GPT-4.

Первая попытка собрать студентов в комнате, купив им пиццу для ручной разметки ответов Vicuna, ожидаемо провалилась из-за невозможности масштабирования. Тогда родилась идея создать Side-by-Side интерфейс, где любой желающий мог бы анонимно сравнить ответы двух неназванных моделей. 

Главным вызовом стало математическое ранжирование участников. Напрямую просить пользователя распределить по местам $N$ ответов от $N$ моделей слишком сложно из-за разницы в тоне и стиле. Команда обратилась к опыту спортивных турниров. Прямые круговые чемпионаты (где каждый играет с каждым) требуют $N^2$ матчей, что исключает добавление новых моделей в реальном времени. В итоге разработчики адаптировали рейтинговую систему Эло (Elo), применяемую в шахматах и теннисе. В «слепом» режиме баттла пользователь видит один промпт и два анонимных ответа, выбирая лучший из них или объявляя ничью.

Вскоре к проекту присоединился Анастасиос Ангелопулос, которого Иону Стоике порекомендовал знаменитый профессор Майкл Джордан. Анастасиос перевел платформу с классического рейтинга Эло на статистическую модель Брэдли-Терри (Bradley-Terry). В отличие от Эло, где очки постоянно колеблются и не имеют финальной точки сходимости, модель Брэдли-Терри математически сходится к точной оценке параметров и позволяет строить строгие доверительные интервалы для каждой модели на лидерборде.

Участники дискуссии сходятся во мнении, что Chatbot Arena не могла появиться нигде, кроме как в междисциплинарной исследовательской лаборатории Беркли. Ион Стоика подчеркивает, что если бы проект создавался в стенах коммерческой корпорации, индустрия неизбежно усомнилась бы в его нейтральности и скрытых мотивах. В Беркли же силами всего 4–5 студентов, сочетавших экспертизу в системном программировании, обработке данных и машинном обучении, удалось построить гибкую систему, опередившую неповоротливые индустриальные команды. Сейчас команда проекта выросла примерно до 20 человек, включая аспирантов и студентов бакалавриата.

## 📊 Проблема контаминации и иммунитет к переобучению
[[JUMP:19:18]]

Фундаментальное отличие LMArena от академических тестов заключается в защите от так называемого «хакинга бенчмарков». Статичные датасеты неизбежно устаревают и подвергаются контаминации (загрязнению данных). Поскольку доступные объемы качественного текста в интернете ограничены, разработчики современных ИИ-моделей осознанно или случайно включают тестовые вопросы из популярных бенчмарков в обучающие выборки своих систем. В результате модель просто зазубривает правильные ответы.

Chatbot Arena концептуально защищена от переобучения, поскольку поток входящих вопросов обновляется ежесекундно. Чтобы модель поднялась на вершину рейтинга, ей необходимо завоевать голоса реальных людей на абсолютно новых, не видевших свет задачах. 

Исследовательница из команды LMArena по имени Лиза провела математический анализ уникальности данных. Она измерила сходство промптов, поступающих на платформу в течение одного дня, со всей базой запросов за предшествующие три месяца. Исследование показало:

* Даже при использовании мягкого порога сходства в 70–75%, более 80% ежедневных промптов являются абсолютно уникальными;
* Повторяемость и насыщение базы вопросов отсутствуют, что доказывает бесконечную свежесть распределения.

Анастасиос Ангелопулос проводит глубокую методологическую параллель: статичные бенчмарки подобны обучению с учителем (Supervised Learning), где качество системы ограничено потолком знаний самого учителя. LMArena же функционирует по принципу обучения с подкреплением (Reinforcement Learning) от взаимодействия с реальным миром. Система не требует от пользователя объяснять, *почему* один текст лучше другого, или детально редактировать предложения. Сбор чистых бинарных предпочтений в открытой среде позволяет улавливать тончайшие паттерны человеческого восприятия, которые невозможно формализовать в виде академического ключа с ответами.

## 🌐 «Мудрость толпы» против экспертов: управление стилем и предпочтениями
[[JUMP:6:30]]

Один из главных философских споров вокруг LMArena касается авторитета оценщиков. Сторонники традиционного подхода утверждают, что оценивать модели ИИ должны исключительно сертифицированные эксперты с учеными степенями, поскольку обыватели «предпочитают низкокачественный контент и цифровой шлак (slop)».

Ион Стоика категорически не согласен с этой элитарной позицией и приводит два контраргумента. Во-первых, реальные высококлассные эксперты физически не имеют времени заниматься рутинной разметкой ИИ-генераций. Нанимая экспертов через специализированные платформы, компании чаще всего получают не лучших ученых, а лишь тех, кто согласился на эту работу ради денег. 

Во-вторых, Стоика указывает на рыночную реальность:

> «Вы, венчурные капиталисты, финансируете десятки ИИ-стартапов. Для кого они создают свои продукты? Кто их конечный пользователь? Это не топ-эксперты, это обычные люди. Именно laymen приносят выручку OpenAI и другим гигантам. Так почему же оценка возможностей модели не должна учитывать предпочтения этой доминирующей массы?»

Тем не менее, разработчики признают наличие когнитивных искажений у массового потребителя. Самое известное из них — «предвзятость длины» (response length bias): люди подсознательно выбирают более длинные и богато украшенные эмодзи ответы, даже если они содержат меньше полезной сути. 

Чтобы решить эту проблему, команда LMArena разработала технологию контролируемой регрессии — **Style Control**. В математическую модель Брэдли-Терри внедряются дополнительные ковариаты (сопутствующие переменные), которые изолируют влияние длины ответа, тональности и использования спецсимволов на итоговый голос пользователя. 

Это позволяет аналитикам оценивать чистую содержательную сущность ответа (substance) при зафиксированном стиле (style). Разработчик может задать вопрос: «Как максимизировать удовлетворенность пользователя, если моя модель должна оставаться строго лаконичной?» Методология LMArena дает на это математически точный ответ.

## 💻 Специализированные среды: почему WebDev Arena ломает модели
[[JUMP:14:36]]

Летом 2024 года, на волне популярности концепции генерируемых ИИ веб-интерфейсов (тренды вроде Cloud Artifacts и Vercel v0), команда осознала ограниченность текстового чата для оценки кодинга. Стажер платформы по имени Ариан, параллельно работавший в компании Vercel, предложил создать специализированную песочницу — **WebDev Arena**.

WebDev Arena представляет собой радикально иной тип интерфейса. Модель получает текстовое описание желаемого сайта, после чего в реальном времени генерирует полноценный код. Этот код автоматически отправляется в изолированный контейнер (сандбокс) и компилируется прямо в браузере пользователя, который оценивает уже готовый интерактивный веб-сайт.

Вэй-Линь Чанг объясняет, почему этот специализированный тест идеально отражает общие способности модели к программированию:

* **Комплексность задачи:** нейросеть должна не просто написать кусок кода, а понять архитектурный замысел, соблюсти требования к визуальному стилю, сверстать компоненты и выдать компилируемый продукт без ошибок.
* **Высокая дискриминация:** WebDev Arena буквально «раскалывает» слабые модели. Ошибки на каком-либо из этапов приводят к тому, что сайт просто не рендерится, благодаря чему разрыв в оценках между лидерами и аутсайдерами становится очевидным мгновенно.
* **Соответствие реальным намерениям (user intent):** каждый промпт здесь взят из реальной практики разработчиков, пытающихся создать осязаемый цифровой продукт, что делает тест гораздо более жестким, чем академические задачи с множественным выбором вариантов.

Исследователи опровергают мнение критиков о том, что Chatbot Arena — это «легкий для накрутки бенчмарк». Сложнейшие интерактивные среды доказывают, что платформа способна объективно измерять самые хардкорные инженерные навыки моделей.

## 🔀 Prompt-to-Leaderboard: маршрутизация и экономия в два раза
[[JUMP:54:22]]

Исторически лидерборд LMArena работал как маргинальная регрессия, показывая некое «среднее арифметическое» качество модели по всей планете. Однако пользователю в конкретный момент времени не важна средняя температура по больнице — ему нужно знать, какая модель лучше всего справится именно с его специфической задачей.

Для решения этой фундаментальной проблемы команда представила технологию **Prompt-to-Leaderboard**. Задача кажется математически невыполнимой: пользователь вводит уникальный промпт, который платформа никогда не видела ранее, и система должна мгновенно построить лидерборд моделей именно для этого запроса. 

Вместо классического расчета статистической регрессии исследователи обучили отдельную нейросеть (размером 7 миллиардов параметров). Эта модель-штурман анализирует семантику входящего запроса, сопоставляет его с миллионами исторических векторов похожих промптов и на лету генерирует коэффициенты Брэдли-Терри для всех доступных ИИ-систем.

На базе этой технологии был создан интеллектуальный роутер (маршрутизатор запросов), показавший феноменальные результаты:

* **Превосходство над лидерами:** гибридная система, направляющая вопросы к оптимальным для конкретной темы моделям, по качеству ответов превзошла *любую* отдельную коммерческую модель, входившую в ее состав, причем с огромным отрывом.
* **Двукратная экономия (2x Bang for the Buck):** роутер позволяет гибко балансировать между стоимостью генерации и качеством. Математическая модель может случайным образом распределять трафик (например, 50% на дорогую модель, 50% на дешевую) под жестким ценовым ограничением (допустим, не более 1 цента за запрос).
* **Эффективность по парето:** для достижения топового рейтинга на Арене (уровня 1280 пунктов) использование интеллектуального роутера обходится ровно **в два раза дешевле**, чем прямая отправка запросов в любую индивидуальную флагманскую модель.

По мнению Анастасиоса Ангелопулоса, это фундаментально меняет индустрию разработки: компании могут уйти от громоздких выпадающих списков выбора моделей в интерфейсах, доверив автоматике незаметно подбирать наиболее эффективный и дешевый ИИ под каждую строчку пользователя.

## 🛡️ Будущие рубежи: Red Team Arena и скрытые сигналы D3
[[JUMP:1:23:10]]

Индустрия ИИ стремительно трансформируется: на смену изолированным моделям, предсказывающим следующий токен, приходят комплексные автономные ИИ-агенты с долгосрочным планированием и встроенной памятью. Оценка таких систем усложняется, поскольку границы между самой моделью, системной обвязкой и интерфейсом приложения стираются. Например, ChatGPT обладает долговременной памятью о пользователе, в то время как Claude от Anthropic на текущий момент лишен этой архитектурной особенности.

LMArena планирует развиваться по двум направлениям. Первое — создание новых специализированных сред внутри платформы, таких как недавно запущенная **Search Arena** для тестирования моделей с активным доступом к поиску в интернете. Второе — интеграция через специальный **Arena SDK**. Разработчик условного ИИ-редактора кода сможет подключить этот инструмент к своему приложению, и система Arena будет незаметно для конечного пользователя проводить Side-by-Side тесты фоновых моделей, формируя приватный лидерборд для конкретной организации.

Важнейшим шагом станет переход от явных сигналов (кнопки «лайк/дизлайк») к анализу неявного поведения в рамках проекта **D3 (Data-Driven Debugging)**, релиз которого намечен на ближайшие месяцы. Платформа начнет строить рейтинги на основе глубоких поведенческих метрик:

* Количество копирований сгенерированного кода пользователем;
* Реальное количество одобренных и влитых пул-реквестов (PR merges) для агентов уровня Devon;
* Редакционное расстояние (edit distance) между тем, что предложил ИИ, и тем, что человек в итоге отправил в продакшен.

Еще один революционный продукт — **Red Team Arena**, находящийся в стадии активного прототипирования. Это специализированная площадка для «джейлбрейкинга» (взлома) систем безопасности ИИ. На ней развернута уникальная соревновательная экосистема: лидерборд существует не только для защитных механизмов моделей, но и для самих хакеров («взломщиков»). 

Пользователи соревнуются, кто сможет быстрее и изящнее обойти инструкции безопасности ИИ в симулированных сценариях (например, заставить виртуального ИИ-агента техподдержки нарушить правила компании). Такой краудсорсинговый аудит позволяет лабораториям тонко настраивать баланс между безопасностью и полезностью своих систем.

Несмотря на коммерциализацию, основатели LMArena декларируют неизменность своих ключевых ценностей: академическая нейтральность, еженедельная публикация открытых данных (промптов и обезличенных голосов) и развитие open-source инструментов. По мнению команды, только абсолютная прозрачность позволяет сохранять статус главного и независимого цифрового весовщика технологической эпохи.