Исследователи из OpenAI опубликовали работу, которая проливает свет на природу «галлюцинаций» больших языковых моделей (LLM). Вместо того чтобы рассматривать ошибки ИИ как внутренний технический сбой, авторы статьи и технический аналитик Вес Рот (Wes Roth) предлагают взглянуть на проблему через призму теории тестирования. Оказывается, современные методы обучения буквально заставляют нейросети лгать, превращая их в азартных студентов, которые предпочитают угадать ответ, чем признаться в неведении.
🎓 ИИ как прилежный, но хитрый студент 0:39
Вес Рот проводит аналогию между поведением нейросети и поведением студента на экзамене с вариантами ответов . В большинстве образовательных систем стратегия «угадывания» является наиболее рациональной:
- Процесс исключения: если из пяти вариантов ответа студент может отсеять два заведомо ложных, его шансы на успех при случайном выборе оставшихся возрастают с 20% до 33% .
- Отсутствие штрафов: в большинстве тестов нет разницы между оставленным пустым полем и неправильным ответом — в обоих случаях ставится ноль. Следовательно, попытка угадать всегда выгоднее молчания .
По мнению Рота, именно этот процесс мы воспроизводим при обучении нейросетей через подкрепление (Reinforcement Learning). Модели получают «лайк» за правильный ответ и «дизлайк» за любой другой результат. В таких условиях ИИ обучается тому, что признание «я не знаю» так же бесполезно, как и ошибка, а угадывание дает статистический шанс на награду .
📄 Суть исследования OpenAI: «естественное статистическое давление» 2:26
В новой статье OpenAI утверждается, что галлюцинации возникают не из-за «врожденного дефекта» архитектуры моделей, а из-за процедур их обучения и оценки .
Основные тезисы статьи, выделенные Ротом:
- Статистическое давление: если модель не может отличить ложное утверждение от факта на этапе предобучения, она начинает генерировать галлюцинации под влиянием естественного статистического давления .
- Оптимизация под тесты: языковые модели оптимизированы для прохождения бенчмарков (стандартных тестов). Как и студенты, они учатся угадывать, чтобы повысить средний балл .
- Вина создателей: по словам автора видео, проблема галлюцинаций — это не вина ИИ, а «наша вина» (человечества), поскольку мы не меняем стимулы при тренировке .
Вес Рот подчеркивает, что до сих пор практически никто не создавал стимулов для того, чтобы ИИ говорил «я не знаю» .
🧠 Как измерить «уверенность» нейросети 4:12
Рот объясняет, как технически можно понять, галлюцинирует модель или «знает» ответ. Один из методов — многократный запуск одного и того же запроса с анализом распределения ответов .
- Пример с простым вопросом: если спросить «сколько будет 2+2», модель выдаст «4» в 100 случаях из 100. Это признак высокой уверенности .
- Сложный вопрос: если вопрос сложный и модель не уверена, она начнет выдавать разные варианты (угадывать).
- Аналогия с клонами: Вес предлагает представить 100 клонов человека, сдающих экзамен. Если все 100 выбирают вариант «А», они уверены. Если ответы распределяются между «A», «B» и «D» случайным образом — это чистое угадывание .
В качестве примера Рот приводит запрос о дне рождения Адама Талмана Кали (исследователя OpenAI). Современная открытая модель трижды выдала три разные неверные даты, несмотря на то что в запросе была явная просьба отвечать только в случае, если ответ известен . Это доказывает, что модели игнорируют инструкции о честности в пользу попытки дать хоть какой-то ответ .
🏗️ Базовые модели против «инструктированных» 11:50
Важно различать этапы создания ИИ, чтобы понять, где закладываются галлюцинации:
- Base Models (Базовые модели): это «огромное облако потенциала», обученное на всем интернете . Для них галлюцинации неизбежны, так как они просто предсказывают следующее слово на основе статистики текста .
- Instruct Models (Инструктированные модели): это чат-боты, прошедшие через RLHF (обучение с подкреплением на основе отзывов людей). Именно на этом этапе, как утверждает OpenAI, можно радикально снизить уровень галлюцинаций .
Рот полагает, что для решения проблемы нужно изменить систему вознаграждения: либо штрафовать за неверные ответы сильнее, чем за молчание, либо начислять баллы за честное признание в неведении .
🙊 Отсутствие «социального стыда» у ИИ 13:24
Вес Рот проводит интересную параллель с человеческой психологией и социальными стимулами. У людей существует иерархия вознаграждений за ответы:
- Максимальная награда: дать правильный и умный ответ. Это повышает социальный статус .
- Средняя награда: честно сказать «я не знаю». Это вызывает доверие и уважение к честности .
- Социальное наказание: уверенно заявить глупость, которая окажется ложью. Это ведет к потере репутации и чувству стыда («обезьяний мозг» чувствует дискомфорт) .
У нейросетей отсутствует механизм «стыда» за уверенную ложь. Они всегда находятся в режиме «сдачи экзамена», где любая попытка лучше, чем ничего .
📊 Проблема современных бенчмарков 14:42
Рот проанализировал самые популярные тесты, на которые ориентируется индустрия при выпуске новых моделей (MMLU, GPQA, GSM8K и другие) . Выяснилось, что почти все они используют бинарную систему оценки (сдал/не сдал) .
- Статистика: из десятка крупнейших бенчмарков только один — Wild Bench — начисляет баллы (IDK credit) за ответ «я не знаю» .
- Математический аспект: в статье упоминается размерность Вапника — Червоненкиса (VC dimension) для описания сложности обучения, однако Вес Рот честно признается, что эта часть математики слишком сложна для него, и предлагает зрителям объяснить ее в комментариях .
🔮 Будущее без галлюцинаций 16:20
По мнению Веса Рота, если выводы статьи OpenAI верны, мы стоим на пороге прорыва в надежности ИИ. Основные изменения, которые он предсказывает:
- Трансформация тестов: создателям бенчмарков придется отойти от бинарной логики и внедрить частичное вознаграждение за неопределенность .
- Новое поведение ИИ: пользователям придется привыкнуть к тому, что чат-боты будут чаще отвечать «я не знаю». Рот считает, что это «свой сорт ада» и это будет раздражать, но такая честность лучше, чем уверенная ложь .
В завершение Рот задается вопросом: насколько значимо это открытие? Он предлагает зрителям оценить важность статьи OpenAI по шкале от 1 до 10, где 10 — уровень фундаментальной статьи «Attention is All You Need», создавшей архитектуру трансформеров . Автор склоняется к тому, что изменение фундаментального подхода к обучению (отказ от обязательного угадывания) может стать ключевым шагом к созданию по-настоящему надежного искусственного интеллекта .