Макс Бартоло из Cohere: почему человеческая обратная связь — это не золотой стандарт для ИИ

Разрыв между человеком и машиной в вопросах мышления и надежности остается одной из самых обсуждаемых тем в индустрии искусственного интеллекта. В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарф обсуждает эти проблемы с Максом Бартоло (Max Bartolo), ученым-исследователем из компании Cohere, специализирующимся на пост-обучении моделей и состязательном сборе данных.

🧠 Процедурное знание против простого поиска фактов 0:00

Один из центральных вопросов современной науки об ИИ — действительно ли большие языковые модели (LLM) «рассуждают» или они просто эффективно сжимают обучающие данные. Макс Бартоло упоминает совместное исследование с Лаурой Руис, в котором изучалось, как модели используют информацию, полученную во время предварительного обучения .

Используя функции влияния (influence functions), исследователи проанализировали, какие именно документы из обучающей выборки влияют на ответ модели:

Фактологические вопросы: При ответе на простые факты модели полагаются на очень узкий набор документов, содержащих конкретный ответ (параметрическое знание) .
Запросы на рассуждение: В этом случае влияние распределено по огромному количеству источников. Модель опирается на «процедурное знание», собирая алгоритм решения из множества примеров .

Макс Бартоло признает, что результаты исследования изменили его взгляды. Ранее он был скептичен и склонялся к мнению Франсуа Шолле, что модели — это лишь продвинутые статистические кривые. Однако данные показывают, что модели способны комбинировать процедурные знания новыми способами. Чтобы доказать это, исследователи использовали контрольные вопросы:

Сложный вопрос: «Линия определена точками (2,2) и (3,3). Каков наклон линии?». Модель должна применить уравнение.
Контрольный вопрос: «Наклон линии равен 1. Каков наклон линии?».

Разница в том, как модель обрабатывает эти два типа запросов, подтверждает: она не просто ищет совпадения слов, а выполняет определенные вычислительные шаги .

📊 Проблема «золотого стандарта» человеческой обратной связи 16:13

В индустрии принято считать человеческую оценку (RLHF) высшим мерилом качества. Однако Макс Бартоло в своей работе «Human feedback is not a gold standard» утверждает, что человеческие предпочтения часто иррациональны и подвержены когнитивным искажениям .

В ходе экспериментов было обнаружено несколько критических проблем:

Предвзятость к уверенности (Assertiveness Bias): Люди склонны оценивать ответы как более качественные и правильные, если они написаны уверенным тоном.
Искажение фактов: При попытке модели звучать более напористо её фактическая точность снижается, но аннотаторы-люди этого не замечают и продолжают ставить высокие баллы .
Стиль важнее сути: Люди крайне негативно реагируют на отказы модели отвечать (refusals) и предпочитают длинные, сложно структурированные ответы, даже если они содержат ошибки .

Макс Бартоло подчеркивает, что современные системы оптимизируются под специфическое и не до конца определенное понятие «человеческого предпочтения», которое может идти вразрез с объективной истиной .

🌏 Проект PRISM: Разнообразие и культурные различия 27:06

Исследование PRISM, получившее награду на NeurIPS, показало, что понятие «хорошего ответа» сильно варьируется в зависимости от географии и культуры .

Ключевые выводы проекта:

Представительство: Темы, которые люди обсуждают с ИИ, зависят от их бэкграунда. Например, пользователи с Ближнего Востока гораздо чаще обсуждают конфликт между Израилем и Палестиной .
Географические провалы: Модели Cohere (первые поколения Command) демонстрировали падение производительности для пользователей из Азии по сравнению с другими регионами .
Локальные предпочтения: Макс приводит личный пример: как выходец из Средиземноморья, он предпочитает краткие и прямые ответы, в то время как общие выборки данных подталкивают модели к многословию .

По мнению Макса Бартоло, вместо создания одной «усредненной» модели для всех, эффективнее использовать контекстное обучение (in-context learning), передавая предпочтения конкретного пользователя прямо в промпте во время инференса .

🛡️ Состязательная устойчивость: Почему ИИ легко обмануть 32:43

Макс Бартоло утверждает, что настоящую проверку на «мышление» модель проходит в состязательной среде. Его ранняя работа AdversarialQA была направлена на сбор данных с участием человека в цикле (human-in-the-loop) .

Вместо автоматического добавления шума (например, гауссова шума в изображения), Макс предлагает использовать людей для поиска уязвимостей. Пример «состязательного» вопроса: вместо «Какого цвета небо?» человек спрашивает «Какого цвета то пространство, в котором находятся облака?». Это заставляет модель выходить за рамки простых лексических совпадений .

Основные тезисы о состязательном сборе данных:

Диверсификация: Вопросы, созданные людьми для «взлома» модели, гораздо сложнее и разнообразнее стандартных бенчмарков .
Обучающий сигнал: Данные, собранные на слабых моделях (например, BERT), все равно оказываются полезными для обучения более мощных систем (Llama 3) .
Реальный мир: Модели, прошедшие через состязательное обучение, показывают гораздо лучшие результаты в реальных бизнес-задачах, чем на «чистых» академических тестах .

📉 Смерть статических бенчмарков и DynaBench 42:58

Традиционные тесты для ИИ быстро устаревают. Макс Бартоло описывает это через закон Гудхарта: когда показатель становится целью, он перестает быть хорошим показателем .

Для решения этой проблемы была создана платформа DynaBench . Её концепция заключается в динамическом тестировании:

Создается бенчмарк.
Сообщество быстро оптимизирует модели под него (насыщение теста MNIST заняло 10 лет, а SQuAD — менее двух) .
Бенчмарк автоматически усложняется, находя новые «слепые зоны» моделей.

Макс сравнивает это с медицинским образованием: мы не даем опытному хирургу тест для начальной школы. Для ИИ также нужны иерархические экзамены, проверяющие специализированные навыки .

🚀 Путь Cohere: От Command до Command R+ 54:38

Макс Бартоло присоединился к Cohere за несколько недель до запуска ChatGPT . В то время базовые модели были мощными, но не умели следовать инструкциям: на вопрос «Какого цвета небо?» они могли ответить «А какого цвета солнце?», просто продолжая список вопросов из обучающей выборки .

Команда Cohere внедрила агрессивный цикл разработки:

Внутренние соревнования по сбору данных (цель в 10 000 примеров была перевыполнена за две недели) .
Релиз новой модели каждую неделю в течение года (52 модели за год) .
Создание Command R и R+ — моделей, оптимизированных для RAG (Retrieval-Augmented Generation) и использования инструментов (tool use) .

🧩 Технические вызовы: Квантование, контекст и «глючные токены» 1:00:25

В завершение дискуссии собеседники затронули несколько прикладных проблем архитектуры трансформеров:

Квантование: Снижение точности весов моделей (quantization) дает огромный выигрыш в эффективности, но создает «слепые пятна» в рассуждениях, которые текущие тесты не могут зафиксировать .
Глитч-токены (Glitch Tokens): Определенные последовательности символов, которые модель почти не видела при обучении, могут вызывать непредсказуемое поведение. Работа Макса об этом феномене получила широкую огласку после репоста Андрея Карпатого (Andrej Karpathy) .
Окно контекста: Cohere увеличила его с 4K до 128K токенов . Хотя технически возможно подать в модель весь интернет, Макс Бартоло считает это избыточным: «Если я прошу вас назвать цвет неба, вам не нужно перечитывать весь интернет для ответа» .

Оба участника сошлись во мнении, что будущее за моделями, способными адаптировать время вычислений (test-time compute) под сложность задачи. Если задача критически важна, модель должна «думать» дольше, а если она простая — отвечать мгновенно .