# Почему нейросети галлюцинируют? OpenAI нашла решение проблемы «уверенной лжи»

Источник: https://www.youtube.com/watch?v=uesNWFP40zw
Канал: Wes Roth
Опубликовано: 08.09.2025

---

Исследователи из OpenAI опубликовали работу, которая проливает свет на природу «галлюцинаций» больших языковых моделей (LLM). Вместо того чтобы рассматривать ошибки ИИ как внутренний технический сбой, авторы статьи и технический аналитик Вес Рот (Wes Roth) предлагают взглянуть на проблему через призму теории тестирования. Оказывается, современные методы обучения буквально заставляют нейросети лгать, превращая их в азартных студентов, которые предпочитают угадать ответ, чем признаться в неведении.

## 🎓 ИИ как прилежный, но хитрый студент
[[JUMP:0:39]]

Вес Рот проводит аналогию между поведением нейросети и поведением студента на экзамене с вариантами ответов [0:39]. В большинстве образовательных систем стратегия «угадывания» является наиболее рациональной:

*   **Процесс исключения:** если из пяти вариантов ответа студент может отсеять два заведомо ложных, его шансы на успех при случайном выборе оставшихся возрастают с 20% до 33% [0:53].
*   **Отсутствие штрафов:** в большинстве тестов нет разницы между оставленным пустым полем и неправильным ответом — в обоих случаях ставится ноль. Следовательно, попытка угадать всегда выгоднее молчания [1:19].

По мнению Рота, именно этот процесс мы воспроизводим при обучении нейросетей через подкрепление (Reinforcement Learning). Модели получают «лайк» за правильный ответ и «дизлайк» за любой другой результат. В таких условиях ИИ обучается тому, что признание «я не знаю» так же бесполезно, как и ошибка, а угадывание дает статистический шанс на награду [2:13].

## 📄 Суть исследования OpenAI: «естественное статистическое давление»
[[JUMP:2:26]]

В новой статье OpenAI утверждается, что галлюцинации возникают не из-за «врожденного дефекта» архитектуры моделей, а из-за процедур их обучения и оценки [2:53]. 

Основные тезисы статьи, выделенные Ротом:

1.  **Статистическое давление:** если модель не может отличить ложное утверждение от факта на этапе предобучения, она начинает генерировать галлюцинации под влиянием естественного статистического давления [3:18].
2.  **Оптимизация под тесты:** языковые модели оптимизированы для прохождения бенчмарков (стандартных тестов). Как и студенты, они учатся угадывать, чтобы повысить средний балл [3:31].
3.  **Вина создателей:** по словам автора видео, проблема галлюцинаций — это не вина ИИ, а «наша вина» (человечества), поскольку мы не меняем стимулы при тренировке [3:05].

Вес Рот подчеркивает, что до сих пор практически никто не создавал стимулов для того, чтобы ИИ говорил «я не знаю» [3:58].

## 🧠 Как измерить «уверенность» нейросети
[[JUMP:4:12]]

Рот объясняет, как технически можно понять, галлюцинирует модель или «знает» ответ. Один из методов — многократный запуск одного и того же запроса с анализом распределения ответов [4:12].

*   **Пример с простым вопросом:** если спросить «сколько будет 2+2», модель выдаст «4» в 100 случаях из 100. Это признак высокой уверенности [4:25].
*   **Сложный вопрос:** если вопрос сложный и модель не уверена, она начнет выдавать разные варианты (угадывать).
*   **Аналогия с клонами:** Вес предлагает представить 100 клонов человека, сдающих экзамен. Если все 100 выбирают вариант «А», они уверены. Если ответы распределяются между «A», «B» и «D» случайным образом — это чистое угадывание [4:51].

В качестве примера Рот приводит запрос о дне рождения Адама Талмана Кали (исследователя OpenAI). Современная открытая модель трижды выдала три разные неверные даты, несмотря на то что в запросе была явная просьба отвечать только в случае, если ответ известен [6:23]. Это доказывает, что модели игнорируют инструкции о честности в пользу попытки дать хоть какой-то ответ [6:49].

## 🏗️ Базовые модели против «инструктированных»
[[JUMP:11:50]]

Важно различать этапы создания ИИ, чтобы понять, где закладываются галлюцинации:

*   **Base Models (Базовые модели):** это «огромное облако потенциала», обученное на всем интернете [12:30]. Для них галлюцинации неизбежны, так как они просто предсказывают следующее слово на основе статистики текста [12:03].
*   **Instruct Models (Инструктированные модели):** это чат-боты, прошедшие через RLHF (обучение с подкреплением на основе отзывов людей). Именно на этом этапе, как утверждает OpenAI, можно радикально снизить уровень галлюцинаций [12:17].

Рот полагает, что для решения проблемы нужно изменить систему вознаграждения: либо штрафовать за неверные ответы сильнее, чем за молчание, либо начислять баллы за честное признание в неведении [13:10].

## 🙊 Отсутствие «социального стыда» у ИИ
[[JUMP:13:24]]

Вес Рот проводит интересную параллель с человеческой психологией и социальными стимулами. У людей существует иерархия вознаграждений за ответы:

1.  **Максимальная награда:** дать правильный и умный ответ. Это повышает социальный статус [13:49].
2.  **Средняя награда:** честно сказать «я не знаю». Это вызывает доверие и уважение к честности [13:59].
3.  **Социальное наказание:** уверенно заявить глупость, которая окажется ложью. Это ведет к потере репутации и чувству стыда («обезьяний мозг» чувствует дискомфорт) [14:14].

У нейросетей отсутствует механизм «стыда» за уверенную ложь. Они всегда находятся в режиме «сдачи экзамена», где любая попытка лучше, чем ничего [11:35].

## 📊 Проблема современных бенчмарков
[[JUMP:14:42]]

Рот проанализировал самые популярные тесты, на которые ориентируется индустрия при выпуске новых моделей (MMLU, GPQA, GSM8K и другие) [15:09]. Выяснилось, что почти все они используют бинарную систему оценки (сдал/не сдал) [15:21].

*   **Статистика:** из десятка крупнейших бенчмарков только один — **Wild Bench** — начисляет баллы (IDK credit) за ответ «я не знаю» [15:21].
*   **Математический аспект:** в статье упоминается размерность Вапника — Червоненкиса (VC dimension) для описания сложности обучения, однако Вес Рот честно признается, что эта часть математики слишком сложна для него, и предлагает зрителям объяснить ее в комментариях [15:49].

## 🔮 Будущее без галлюцинаций
[[JUMP:16:20]]

По мнению Веса Рота, если выводы статьи OpenAI верны, мы стоим на пороге прорыва в надежности ИИ. Основные изменения, которые он предсказывает:

*   **Трансформация тестов:** создателям бенчмарков придется отойти от бинарной логики и внедрить частичное вознаграждение за неопределенность [18:39].
*   **Новое поведение ИИ:** пользователям придется привыкнуть к тому, что чат-боты будут чаще отвечать «я не знаю». Рот считает, что это «свой сорт ада» и это будет раздражать, но такая честность лучше, чем уверенная ложь [16:40].

В завершение Рот задается вопросом: насколько значимо это открытие? Он предлагает зрителям оценить важность статьи OpenAI по шкале от 1 до 10, где 10 — уровень фундаментальной статьи «Attention is All You Need», создавшей архитектуру трансформеров [19:05]. Автор склоняется к тому, что изменение фундаментального подхода к обучению (отказ от обязательного угадывания) может стать ключевым шагом к созданию по-настоящему надежного искусственного интеллекта [18:26].