Макс Бартоло из Cohere: почему человеческая обратная связь — это не золотой стандарт для ИИ

Machine Learning Street Talk 8,5 тыс. 1 ч 23 мин 5 мин 18.03.2025
Главное

Разрыв между человеком и машиной в вопросах мышления и надежности остается одной из самых обсуждаемых тем в индустрии искусственного интеллекта. В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарф обсуждает эти проблемы с Максом Бартоло (Max Bartolo), ученым-исследователем из компании Cohere, специализирующимся на пост-обучении моделей и состязательном сборе данных.

🧠 Процедурное знание против простого поиска фактов 0:00

Один из центральных вопросов современной науки об ИИ — действительно ли большие языковые модели (LLM) «рассуждают» или они просто эффективно сжимают обучающие данные. Макс Бартоло упоминает совместное исследование с Лаурой Руис, в котором изучалось, как модели используют информацию, полученную во время предварительного обучения .

Используя функции влияния (influence functions), исследователи проанализировали, какие именно документы из обучающей выборки влияют на ответ модели:

Макс Бартоло признает, что результаты исследования изменили его взгляды. Ранее он был скептичен и склонялся к мнению Франсуа Шолле, что модели — это лишь продвинутые статистические кривые. Однако данные показывают, что модели способны комбинировать процедурные знания новыми способами. Чтобы доказать это, исследователи использовали контрольные вопросы:

  1. Сложный вопрос: «Линия определена точками (2,2) и (3,3). Каков наклон линии?». Модель должна применить уравнение.
  2. Контрольный вопрос: «Наклон линии равен 1. Каков наклон линии?».

Разница в том, как модель обрабатывает эти два типа запросов, подтверждает: она не просто ищет совпадения слов, а выполняет определенные вычислительные шаги .

📊 Проблема «золотого стандарта» человеческой обратной связи 16:13

В индустрии принято считать человеческую оценку (RLHF) высшим мерилом качества. Однако Макс Бартоло в своей работе «Human feedback is not a gold standard» утверждает, что человеческие предпочтения часто иррациональны и подвержены когнитивным искажениям .

В ходе экспериментов было обнаружено несколько критических проблем:

Макс Бартоло подчеркивает, что современные системы оптимизируются под специфическое и не до конца определенное понятие «человеческого предпочтения», которое может идти вразрез с объективной истиной .

🌏 Проект PRISM: Разнообразие и культурные различия 27:06

Исследование PRISM, получившее награду на NeurIPS, показало, что понятие «хорошего ответа» сильно варьируется в зависимости от географии и культуры .

Ключевые выводы проекта:

По мнению Макса Бартоло, вместо создания одной «усредненной» модели для всех, эффективнее использовать контекстное обучение (in-context learning), передавая предпочтения конкретного пользователя прямо в промпте во время инференса .

🛡️ Состязательная устойчивость: Почему ИИ легко обмануть 32:43

Макс Бартоло утверждает, что настоящую проверку на «мышление» модель проходит в состязательной среде. Его ранняя работа AdversarialQA была направлена на сбор данных с участием человека в цикле (human-in-the-loop) .

Вместо автоматического добавления шума (например, гауссова шума в изображения), Макс предлагает использовать людей для поиска уязвимостей. Пример «состязательного» вопроса: вместо «Какого цвета небо?» человек спрашивает «Какого цвета то пространство, в котором находятся облака?». Это заставляет модель выходить за рамки простых лексических совпадений .

Основные тезисы о состязательном сборе данных:

📉 Смерть статических бенчмарков и DynaBench 42:58

Традиционные тесты для ИИ быстро устаревают. Макс Бартоло описывает это через закон Гудхарта: когда показатель становится целью, он перестает быть хорошим показателем .

Для решения этой проблемы была создана платформа DynaBench . Её концепция заключается в динамическом тестировании:

  1. Создается бенчмарк.
  2. Сообщество быстро оптимизирует модели под него (насыщение теста MNIST заняло 10 лет, а SQuAD — менее двух) .
  3. Бенчмарк автоматически усложняется, находя новые «слепые зоны» моделей.

Макс сравнивает это с медицинским образованием: мы не даем опытному хирургу тест для начальной школы. Для ИИ также нужны иерархические экзамены, проверяющие специализированные навыки .

🚀 Путь Cohere: От Command до Command R+ 54:38

Макс Бартоло присоединился к Cohere за несколько недель до запуска ChatGPT . В то время базовые модели были мощными, но не умели следовать инструкциям: на вопрос «Какого цвета небо?» они могли ответить «А какого цвета солнце?», просто продолжая список вопросов из обучающей выборки .

Команда Cohere внедрила агрессивный цикл разработки:

🧩 Технические вызовы: Квантование, контекст и «глючные токены» 1:00:25

В завершение дискуссии собеседники затронули несколько прикладных проблем архитектуры трансформеров:

Оба участника сошлись во мнении, что будущее за моделями, способными адаптировать время вычислений (test-time compute) под сложность задачи. Если задача критически важна, модель должна «думать» дольше, а если она простая — отвечать мгновенно .

💬 Цитаты

«Если бы ваш калькулятор на запрос '1+2' ответил '3', а на '2+7' выдал '17', вы бы его выбросили. От машин мы требуем гораздо большей надежности, чем от людей.»

«Человеческие предпочтения — это не золотой стандарт. Мы обнаружили, что люди предпочитают уверенных лжецов скромным экспертам.»

Макс Бартоло 23:11
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Обучение с подкреплением на основе обратной связи от человека.
RAG
Технология добавления актуальных внешних данных в запрос к нейросети для повышения точности.
Глитч-токены
Специфические комбинации символов, которые вызывают ошибки в работе обученной модели из-за их редкости в выборке.
Функции влияния
Математический метод, позволяющий определить, какие именно данные из обучения больше всего повлияли на конкретный ответ модели.
📊 Цифры
🗓 Хронология
  1. 2019 Публикация работы AdversarialQA о состязательном сборе данных.
  2. конец 2022 Макс Бартоло присоединяется к Cohere за несколько недель до релиза ChatGPT.
  3. апрель 2024 Релиз моделей Command R и R+, вошедших в топ-4 мировых рейтинга.
⚖️ Другая сторона
Искусственный интеллект Макс Бартоло Cohere DynaBench Command R RLHF