Почему нейросети галлюцинируют? OpenAI нашла решение проблемы «уверенной лжи»

Исследователи из OpenAI опубликовали работу, которая проливает свет на природу «галлюцинаций» больших языковых моделей (LLM). Вместо того чтобы рассматривать ошибки ИИ как внутренний технический сбой, авторы статьи и технический аналитик Вес Рот (Wes Roth) предлагают взглянуть на проблему через призму теории тестирования. Оказывается, современные методы обучения буквально заставляют нейросети лгать, превращая их в азартных студентов, которые предпочитают угадать ответ, чем признаться в неведении.

🎓 ИИ как прилежный, но хитрый студент 0:39

Вес Рот проводит аналогию между поведением нейросети и поведением студента на экзамене с вариантами ответов . В большинстве образовательных систем стратегия «угадывания» является наиболее рациональной:

Процесс исключения: если из пяти вариантов ответа студент может отсеять два заведомо ложных, его шансы на успех при случайном выборе оставшихся возрастают с 20% до 33% .
Отсутствие штрафов: в большинстве тестов нет разницы между оставленным пустым полем и неправильным ответом — в обоих случаях ставится ноль. Следовательно, попытка угадать всегда выгоднее молчания .

По мнению Рота, именно этот процесс мы воспроизводим при обучении нейросетей через подкрепление (Reinforcement Learning). Модели получают «лайк» за правильный ответ и «дизлайк» за любой другой результат. В таких условиях ИИ обучается тому, что признание «я не знаю» так же бесполезно, как и ошибка, а угадывание дает статистический шанс на награду .

📄 Суть исследования OpenAI: «естественное статистическое давление» 2:26

В новой статье OpenAI утверждается, что галлюцинации возникают не из-за «врожденного дефекта» архитектуры моделей, а из-за процедур их обучения и оценки .

Основные тезисы статьи, выделенные Ротом:

Статистическое давление: если модель не может отличить ложное утверждение от факта на этапе предобучения, она начинает генерировать галлюцинации под влиянием естественного статистического давления .
Оптимизация под тесты: языковые модели оптимизированы для прохождения бенчмарков (стандартных тестов). Как и студенты, они учатся угадывать, чтобы повысить средний балл .
Вина создателей: по словам автора видео, проблема галлюцинаций — это не вина ИИ, а «наша вина» (человечества), поскольку мы не меняем стимулы при тренировке .

Вес Рот подчеркивает, что до сих пор практически никто не создавал стимулов для того, чтобы ИИ говорил «я не знаю» .

🧠 Как измерить «уверенность» нейросети 4:12

Рот объясняет, как технически можно понять, галлюцинирует модель или «знает» ответ. Один из методов — многократный запуск одного и того же запроса с анализом распределения ответов .

Пример с простым вопросом: если спросить «сколько будет 2+2», модель выдаст «4» в 100 случаях из 100. Это признак высокой уверенности .
Сложный вопрос: если вопрос сложный и модель не уверена, она начнет выдавать разные варианты (угадывать).
Аналогия с клонами: Вес предлагает представить 100 клонов человека, сдающих экзамен. Если все 100 выбирают вариант «А», они уверены. Если ответы распределяются между «A», «B» и «D» случайным образом — это чистое угадывание .

В качестве примера Рот приводит запрос о дне рождения Адама Талмана Кали (исследователя OpenAI). Современная открытая модель трижды выдала три разные неверные даты, несмотря на то что в запросе была явная просьба отвечать только в случае, если ответ известен . Это доказывает, что модели игнорируют инструкции о честности в пользу попытки дать хоть какой-то ответ .

🏗️ Базовые модели против «инструктированных» 11:50

Важно различать этапы создания ИИ, чтобы понять, где закладываются галлюцинации:

Base Models (Базовые модели): это «огромное облако потенциала», обученное на всем интернете . Для них галлюцинации неизбежны, так как они просто предсказывают следующее слово на основе статистики текста .
Instruct Models (Инструктированные модели): это чат-боты, прошедшие через RLHF (обучение с подкреплением на основе отзывов людей). Именно на этом этапе, как утверждает OpenAI, можно радикально снизить уровень галлюцинаций .

Рот полагает, что для решения проблемы нужно изменить систему вознаграждения: либо штрафовать за неверные ответы сильнее, чем за молчание, либо начислять баллы за честное признание в неведении .

🙊 Отсутствие «социального стыда» у ИИ 13:24

Вес Рот проводит интересную параллель с человеческой психологией и социальными стимулами. У людей существует иерархия вознаграждений за ответы:

Максимальная награда: дать правильный и умный ответ. Это повышает социальный статус .
Средняя награда: честно сказать «я не знаю». Это вызывает доверие и уважение к честности .
Социальное наказание: уверенно заявить глупость, которая окажется ложью. Это ведет к потере репутации и чувству стыда («обезьяний мозг» чувствует дискомфорт) .

У нейросетей отсутствует механизм «стыда» за уверенную ложь. Они всегда находятся в режиме «сдачи экзамена», где любая попытка лучше, чем ничего .

📊 Проблема современных бенчмарков 14:42

Рот проанализировал самые популярные тесты, на которые ориентируется индустрия при выпуске новых моделей (MMLU, GPQA, GSM8K и другие) . Выяснилось, что почти все они используют бинарную систему оценки (сдал/не сдал) .

Статистика: из десятка крупнейших бенчмарков только один — Wild Bench — начисляет баллы (IDK credit) за ответ «я не знаю» .
Математический аспект: в статье упоминается размерность Вапника — Червоненкиса (VC dimension) для описания сложности обучения, однако Вес Рот честно признается, что эта часть математики слишком сложна для него, и предлагает зрителям объяснить ее в комментариях .

🔮 Будущее без галлюцинаций 16:20

По мнению Веса Рота, если выводы статьи OpenAI верны, мы стоим на пороге прорыва в надежности ИИ. Основные изменения, которые он предсказывает:

Трансформация тестов: создателям бенчмарков придется отойти от бинарной логики и внедрить частичное вознаграждение за неопределенность .
Новое поведение ИИ: пользователям придется привыкнуть к тому, что чат-боты будут чаще отвечать «я не знаю». Рот считает, что это «свой сорт ада» и это будет раздражать, но такая честность лучше, чем уверенная ложь .

В завершение Рот задается вопросом: насколько значимо это открытие? Он предлагает зрителям оценить важность статьи OpenAI по шкале от 1 до 10, где 10 — уровень фундаментальной статьи «Attention is All You Need», создавшей архитектуру трансформеров . Автор склоняется к тому, что изменение фундаментального подхода к обучению (отказ от обязательного угадывания) может стать ключевым шагом к созданию по-настоящему надежного искусственного интеллекта .