Разрыв между человеком и машиной в вопросах мышления и надежности остается одной из самых обсуждаемых тем в индустрии искусственного интеллекта. В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарф обсуждает эти проблемы с Максом Бартоло (Max Bartolo), ученым-исследователем из компании Cohere, специализирующимся на пост-обучении моделей и состязательном сборе данных.
🧠 Процедурное знание против простого поиска фактов 0:00
Один из центральных вопросов современной науки об ИИ — действительно ли большие языковые модели (LLM) «рассуждают» или они просто эффективно сжимают обучающие данные. Макс Бартоло упоминает совместное исследование с Лаурой Руис, в котором изучалось, как модели используют информацию, полученную во время предварительного обучения .
Используя функции влияния (influence functions), исследователи проанализировали, какие именно документы из обучающей выборки влияют на ответ модели:
- Фактологические вопросы: При ответе на простые факты модели полагаются на очень узкий набор документов, содержащих конкретный ответ (параметрическое знание) .
- Запросы на рассуждение: В этом случае влияние распределено по огромному количеству источников. Модель опирается на «процедурное знание», собирая алгоритм решения из множества примеров .
Макс Бартоло признает, что результаты исследования изменили его взгляды. Ранее он был скептичен и склонялся к мнению Франсуа Шолле, что модели — это лишь продвинутые статистические кривые. Однако данные показывают, что модели способны комбинировать процедурные знания новыми способами. Чтобы доказать это, исследователи использовали контрольные вопросы:
- Сложный вопрос: «Линия определена точками (2,2) и (3,3). Каков наклон линии?». Модель должна применить уравнение.
- Контрольный вопрос: «Наклон линии равен 1. Каков наклон линии?».
Разница в том, как модель обрабатывает эти два типа запросов, подтверждает: она не просто ищет совпадения слов, а выполняет определенные вычислительные шаги .
📊 Проблема «золотого стандарта» человеческой обратной связи 16:13
В индустрии принято считать человеческую оценку (RLHF) высшим мерилом качества. Однако Макс Бартоло в своей работе «Human feedback is not a gold standard» утверждает, что человеческие предпочтения часто иррациональны и подвержены когнитивным искажениям .
В ходе экспериментов было обнаружено несколько критических проблем:
- Предвзятость к уверенности (Assertiveness Bias): Люди склонны оценивать ответы как более качественные и правильные, если они написаны уверенным тоном.
- Искажение фактов: При попытке модели звучать более напористо её фактическая точность снижается, но аннотаторы-люди этого не замечают и продолжают ставить высокие баллы .
- Стиль важнее сути: Люди крайне негативно реагируют на отказы модели отвечать (refusals) и предпочитают длинные, сложно структурированные ответы, даже если они содержат ошибки .
Макс Бартоло подчеркивает, что современные системы оптимизируются под специфическое и не до конца определенное понятие «человеческого предпочтения», которое может идти вразрез с объективной истиной .
🌏 Проект PRISM: Разнообразие и культурные различия 27:06
Исследование PRISM, получившее награду на NeurIPS, показало, что понятие «хорошего ответа» сильно варьируется в зависимости от географии и культуры .
Ключевые выводы проекта:
- Представительство: Темы, которые люди обсуждают с ИИ, зависят от их бэкграунда. Например, пользователи с Ближнего Востока гораздо чаще обсуждают конфликт между Израилем и Палестиной .
- Географические провалы: Модели Cohere (первые поколения Command) демонстрировали падение производительности для пользователей из Азии по сравнению с другими регионами .
- Локальные предпочтения: Макс приводит личный пример: как выходец из Средиземноморья, он предпочитает краткие и прямые ответы, в то время как общие выборки данных подталкивают модели к многословию .
По мнению Макса Бартоло, вместо создания одной «усредненной» модели для всех, эффективнее использовать контекстное обучение (in-context learning), передавая предпочтения конкретного пользователя прямо в промпте во время инференса .
🛡️ Состязательная устойчивость: Почему ИИ легко обмануть 32:43
Макс Бартоло утверждает, что настоящую проверку на «мышление» модель проходит в состязательной среде. Его ранняя работа AdversarialQA была направлена на сбор данных с участием человека в цикле (human-in-the-loop) .
Вместо автоматического добавления шума (например, гауссова шума в изображения), Макс предлагает использовать людей для поиска уязвимостей. Пример «состязательного» вопроса: вместо «Какого цвета небо?» человек спрашивает «Какого цвета то пространство, в котором находятся облака?». Это заставляет модель выходить за рамки простых лексических совпадений .
Основные тезисы о состязательном сборе данных:
- Диверсификация: Вопросы, созданные людьми для «взлома» модели, гораздо сложнее и разнообразнее стандартных бенчмарков .
- Обучающий сигнал: Данные, собранные на слабых моделях (например, BERT), все равно оказываются полезными для обучения более мощных систем (Llama 3) .
- Реальный мир: Модели, прошедшие через состязательное обучение, показывают гораздо лучшие результаты в реальных бизнес-задачах, чем на «чистых» академических тестах .
📉 Смерть статических бенчмарков и DynaBench 42:58
Традиционные тесты для ИИ быстро устаревают. Макс Бартоло описывает это через закон Гудхарта: когда показатель становится целью, он перестает быть хорошим показателем .
Для решения этой проблемы была создана платформа DynaBench . Её концепция заключается в динамическом тестировании:
- Создается бенчмарк.
- Сообщество быстро оптимизирует модели под него (насыщение теста MNIST заняло 10 лет, а SQuAD — менее двух) .
- Бенчмарк автоматически усложняется, находя новые «слепые зоны» моделей.
Макс сравнивает это с медицинским образованием: мы не даем опытному хирургу тест для начальной школы. Для ИИ также нужны иерархические экзамены, проверяющие специализированные навыки .
🚀 Путь Cohere: От Command до Command R+ 54:38
Макс Бартоло присоединился к Cohere за несколько недель до запуска ChatGPT . В то время базовые модели были мощными, но не умели следовать инструкциям: на вопрос «Какого цвета небо?» они могли ответить «А какого цвета солнце?», просто продолжая список вопросов из обучающей выборки .
Команда Cohere внедрила агрессивный цикл разработки:
- Внутренние соревнования по сбору данных (цель в 10 000 примеров была перевыполнена за две недели) .
- Релиз новой модели каждую неделю в течение года (52 модели за год) .
- Создание Command R и R+ — моделей, оптимизированных для RAG (Retrieval-Augmented Generation) и использования инструментов (tool use) .
🧩 Технические вызовы: Квантование, контекст и «глючные токены» 1:00:25
В завершение дискуссии собеседники затронули несколько прикладных проблем архитектуры трансформеров:
- Квантование: Снижение точности весов моделей (quantization) дает огромный выигрыш в эффективности, но создает «слепые пятна» в рассуждениях, которые текущие тесты не могут зафиксировать .
- Глитч-токены (Glitch Tokens): Определенные последовательности символов, которые модель почти не видела при обучении, могут вызывать непредсказуемое поведение. Работа Макса об этом феномене получила широкую огласку после репоста Андрея Карпатого (Andrej Karpathy) .
- Окно контекста: Cohere увеличила его с 4K до 128K токенов . Хотя технически возможно подать в модель весь интернет, Макс Бартоло считает это избыточным: «Если я прошу вас назвать цвет неба, вам не нужно перечитывать весь интернет для ответа» .
Оба участника сошлись во мнении, что будущее за моделями, способными адаптировать время вычислений (test-time compute) под сложность задачи. Если задача критически важна, модель должна «думать» дольше, а если она простая — отвечать мгновенно .