# Макс Бартоло из Cohere: почему человеческая обратная связь — это не золотой стандарт для ИИ

Источник: https://www.youtube.com/watch?v=DL7qwmWWk88
Канал: Machine Learning Street Talk
Опубликовано: 18.03.2025

---

Разрыв между человеком и машиной в вопросах мышления и надежности остается одной из самых обсуждаемых тем в индустрии искусственного интеллекта. В новом выпуске подкаста **Machine Learning Street Talk** ведущий Тим Скарф обсуждает эти проблемы с **Максом Бартоло (Max Bartolo)**, ученым-исследователем из компании Cohere, специализирующимся на пост-обучении моделей и состязательном сборе данных.

## 🧠 Процедурное знание против простого поиска фактов
[[JUMP:0:00]]

Один из центральных вопросов современной науки об ИИ — действительно ли большие языковые модели (LLM) «рассуждают» или они просто эффективно сжимают обучающие данные. Макс Бартоло упоминает совместное исследование с Лаурой Руис, в котором изучалось, как модели используют информацию, полученную во время предварительного обучения [3:06]. 

Используя функции влияния (influence functions), исследователи проанализировали, какие именно документы из обучающей выборки влияют на ответ модели:

*   **Фактологические вопросы:** При ответе на простые факты модели полагаются на очень узкий набор документов, содержащих конкретный ответ (параметрическое знание) [4:32].
*   **Запросы на рассуждение:** В этом случае влияние распределено по огромному количеству источников. Модель опирается на «процедурное знание», собирая алгоритм решения из множества примеров [5:13].

Макс Бартоло признает, что результаты исследования изменили его взгляды. Ранее он был скептичен и склонялся к мнению Франсуа Шолле, что модели — это лишь продвинутые статистические кривые. Однако данные показывают, что модели способны комбинировать процедурные знания новыми способами. Чтобы доказать это, исследователи использовали контрольные вопросы:

1.  **Сложный вопрос:** «Линия определена точками (2,2) и (3,3). Каков наклон линии?». Модель должна применить уравнение.
2.  **Контрольный вопрос:** «Наклон линии равен 1. Каков наклон линии?». 

Разница в том, как модель обрабатывает эти два типа запросов, подтверждает: она не просто ищет совпадения слов, а выполняет определенные вычислительные шаги [6:51].

## 📊 Проблема «золотого стандарта» человеческой обратной связи
[[JUMP:16:13]]

В индустрии принято считать человеческую оценку (RLHF) высшим мерилом качества. Однако Макс Бартоло в своей работе «Human feedback is not a gold standard» утверждает, что человеческие предпочтения часто иррациональны и подвержены когнитивным искажениям [16:30].

В ходе экспериментов было обнаружено несколько критических проблем:

*   **Предвзятость к уверенности (Assertiveness Bias):** Люди склонны оценивать ответы как более качественные и правильные, если они написаны уверенным тоном.
*   **Искажение фактов:** При попытке модели звучать более напористо её фактическая точность снижается, но аннотаторы-люди этого не замечают и продолжают ставить высокие баллы [23:11].
*   **Стиль важнее сути:** Люди крайне негативно реагируют на отказы модели отвечать (refusals) и предпочитают длинные, сложно структурированные ответы, даже если они содержат ошибки [19:14].

Макс Бартоло подчеркивает, что современные системы оптимизируются под специфическое и не до конца определенное понятие «человеческого предпочтения», которое может идти вразрез с объективной истиной [23:56].

## 🌏 Проект PRISM: Разнообразие и культурные различия
[[JUMP:27:06]]

Исследование PRISM, получившее награду на NeurIPS, показало, что понятие «хорошего ответа» сильно варьируется в зависимости от географии и культуры [27:22].

Ключевые выводы проекта:

*   **Представительство:** Темы, которые люди обсуждают с ИИ, зависят от их бэкграунда. Например, пользователи с Ближнего Востока гораздо чаще обсуждают конфликт между Израилем и Палестиной [29:33].
*   **Географические провалы:** Модели Cohere (первые поколения Command) демонстрировали падение производительности для пользователей из Азии по сравнению с другими регионами [32:14].
*   **Локальные предпочтения:** Макс приводит личный пример: как выходец из Средиземноморья, он предпочитает краткие и прямые ответы, в то время как общие выборки данных подталкивают модели к многословию [24:37].

По мнению Макса Бартоло, вместо создания одной «усредненной» модели для всех, эффективнее использовать контекстное обучение (in-context learning), передавая предпочтения конкретного пользователя прямо в промпте во время инференса [26:23].

## 🛡️ Состязательная устойчивость: Почему ИИ легко обмануть
[[JUMP:32:43]]

Макс Бартоло утверждает, что настоящую проверку на «мышление» модель проходит в состязательной среде. Его ранняя работа **AdversarialQA** была направлена на сбор данных с участием человека в цикле (human-in-the-loop) [35:32].

Вместо автоматического добавления шума (например, гауссова шума в изображения), Макс предлагает использовать людей для поиска уязвимостей. Пример «состязательного» вопроса: вместо «Какого цвета небо?» человек спрашивает «Какого цвета то пространство, в котором находятся облака?». Это заставляет модель выходить за рамки простых лексических совпадений [39:22].

Основные тезисы о состязательном сборе данных:

*   **Диверсификация:** Вопросы, созданные людьми для «взлома» модели, гораздо сложнее и разнообразнее стандартных бенчмарков [36:33].
*   **Обучающий сигнал:** Данные, собранные на слабых моделях (например, BERT), все равно оказываются полезными для обучения более мощных систем (Llama 3) [37:48].
*   **Реальный мир:** Модели, прошедшие через состязательное обучение, показывают гораздо лучшие результаты в реальных бизнес-задачах, чем на «чистых» академических тестах [40:17].

## 📉 Смерть статических бенчмарков и DynaBench
[[JUMP:42:58]]

Традиционные тесты для ИИ быстро устаревают. Макс Бартоло описывает это через закон Гудхарта: когда показатель становится целью, он перестает быть хорошим показателем [46:55].

Для решения этой проблемы была создана платформа **DynaBench** [43:44]. Её концепция заключается в динамическом тестировании:

1.  Создается бенчмарк.
2.  Сообщество быстро оптимизирует модели под него (насыщение теста MNIST заняло 10 лет, а SQuAD — менее двух) [47:39].
3.  Бенчмарк автоматически усложняется, находя новые «слепые зоны» моделей.

Макс сравнивает это с медицинским образованием: мы не даем опытному хирургу тест для начальной школы. Для ИИ также нужны иерархические экзамены, проверяющие специализированные навыки [51:48].

## 🚀 Путь Cohere: От Command до Command R+
[[JUMP:54:38]]

Макс Бартоло присоединился к Cohere за несколько недель до запуска ChatGPT [54:48]. В то время базовые модели были мощными, но не умели следовать инструкциям: на вопрос «Какого цвета небо?» они могли ответить «А какого цвета солнце?», просто продолжая список вопросов из обучающей выборки [56:00].

Команда Cohere внедрила агрессивный цикл разработки:

*   Внутренние соревнования по сбору данных (цель в 10 000 примеров была перевыполнена за две недели) [57:48].
*   Релиз новой модели каждую неделю в течение года (52 модели за год) [58:47].
*   Создание Command R и R+ — моделей, оптимизированных для RAG (Retrieval-Augmented Generation) и использования инструментов (tool use) [59:56].

## 🧩 Технические вызовы: Квантование, контекст и «глючные токены»
[[JUMP:1:00:25]]

В завершение дискуссии собеседники затронули несколько прикладных проблем архитектуры трансформеров:

*   **Квантование:** Снижение точности весов моделей (quantization) дает огромный выигрыш в эффективности, но создает «слепые пятна» в рассуждениях, которые текущие тесты не могут зафиксировать [1:00:38].
*   **Глитч-токены (Glitch Tokens):** Определенные последовательности символов, которые модель почти не видела при обучении, могут вызывать непредсказуемое поведение. Работа Макса об этом феномене получила широкую огласку после репоста Андрея Карпатого (Andrej Karpathy) [1:11:16].
*   **Окно контекста:** Cohere увеличила его с 4K до 128K токенов [1:15:34]. Хотя технически возможно подать в модель весь интернет, Макс Бартоло считает это избыточным: «Если я прошу вас назвать цвет неба, вам не нужно перечитывать весь интернет для ответа» [1:19:31].

Оба участника сошлись во мнении, что будущее за моделями, способными адаптировать время вычислений (test-time compute) под сложность задачи. Если задача критически важна, модель должна «думать» дольше, а если она простая — отвечать мгновенно [1:22:14].