Почему нейросети галлюцинируют? OpenAI нашла решение проблемы «уверенной лжи»

Wes Roth 46,1 тыс. 19 мин 5 мин 08.09.2025
Главное

Исследователи из OpenAI опубликовали работу, которая проливает свет на природу «галлюцинаций» больших языковых моделей (LLM). Вместо того чтобы рассматривать ошибки ИИ как внутренний технический сбой, авторы статьи и технический аналитик Вес Рот (Wes Roth) предлагают взглянуть на проблему через призму теории тестирования. Оказывается, современные методы обучения буквально заставляют нейросети лгать, превращая их в азартных студентов, которые предпочитают угадать ответ, чем признаться в неведении.

🎓 ИИ как прилежный, но хитрый студент 0:39

Вес Рот проводит аналогию между поведением нейросети и поведением студента на экзамене с вариантами ответов . В большинстве образовательных систем стратегия «угадывания» является наиболее рациональной:

По мнению Рота, именно этот процесс мы воспроизводим при обучении нейросетей через подкрепление (Reinforcement Learning). Модели получают «лайк» за правильный ответ и «дизлайк» за любой другой результат. В таких условиях ИИ обучается тому, что признание «я не знаю» так же бесполезно, как и ошибка, а угадывание дает статистический шанс на награду .

📄 Суть исследования OpenAI: «естественное статистическое давление» 2:26

В новой статье OpenAI утверждается, что галлюцинации возникают не из-за «врожденного дефекта» архитектуры моделей, а из-за процедур их обучения и оценки .

Основные тезисы статьи, выделенные Ротом:

  1. Статистическое давление: если модель не может отличить ложное утверждение от факта на этапе предобучения, она начинает генерировать галлюцинации под влиянием естественного статистического давления .
  2. Оптимизация под тесты: языковые модели оптимизированы для прохождения бенчмарков (стандартных тестов). Как и студенты, они учатся угадывать, чтобы повысить средний балл .
  3. Вина создателей: по словам автора видео, проблема галлюцинаций — это не вина ИИ, а «наша вина» (человечества), поскольку мы не меняем стимулы при тренировке .

Вес Рот подчеркивает, что до сих пор практически никто не создавал стимулов для того, чтобы ИИ говорил «я не знаю» .

🧠 Как измерить «уверенность» нейросети 4:12

Рот объясняет, как технически можно понять, галлюцинирует модель или «знает» ответ. Один из методов — многократный запуск одного и того же запроса с анализом распределения ответов .

В качестве примера Рот приводит запрос о дне рождения Адама Талмана Кали (исследователя OpenAI). Современная открытая модель трижды выдала три разные неверные даты, несмотря на то что в запросе была явная просьба отвечать только в случае, если ответ известен . Это доказывает, что модели игнорируют инструкции о честности в пользу попытки дать хоть какой-то ответ .

🏗️ Базовые модели против «инструктированных» 11:50

Важно различать этапы создания ИИ, чтобы понять, где закладываются галлюцинации:

Рот полагает, что для решения проблемы нужно изменить систему вознаграждения: либо штрафовать за неверные ответы сильнее, чем за молчание, либо начислять баллы за честное признание в неведении .

🙊 Отсутствие «социального стыда» у ИИ 13:24

Вес Рот проводит интересную параллель с человеческой психологией и социальными стимулами. У людей существует иерархия вознаграждений за ответы:

  1. Максимальная награда: дать правильный и умный ответ. Это повышает социальный статус .
  2. Средняя награда: честно сказать «я не знаю». Это вызывает доверие и уважение к честности .
  3. Социальное наказание: уверенно заявить глупость, которая окажется ложью. Это ведет к потере репутации и чувству стыда («обезьяний мозг» чувствует дискомфорт) .

У нейросетей отсутствует механизм «стыда» за уверенную ложь. Они всегда находятся в режиме «сдачи экзамена», где любая попытка лучше, чем ничего .

📊 Проблема современных бенчмарков 14:42

Рот проанализировал самые популярные тесты, на которые ориентируется индустрия при выпуске новых моделей (MMLU, GPQA, GSM8K и другие) . Выяснилось, что почти все они используют бинарную систему оценки (сдал/не сдал) .

🔮 Будущее без галлюцинаций 16:20

По мнению Веса Рота, если выводы статьи OpenAI верны, мы стоим на пороге прорыва в надежности ИИ. Основные изменения, которые он предсказывает:

В завершение Рот задается вопросом: насколько значимо это открытие? Он предлагает зрителям оценить важность статьи OpenAI по шкале от 1 до 10, где 10 — уровень фундаментальной статьи «Attention is All You Need», создавшей архитектуру трансформеров . Автор склоняется к тому, что изменение фундаментального подхода к обучению (отказ от обязательного угадывания) может стать ключевым шагом к созданию по-настоящему надежного искусственного интеллекта .

💬 Цитаты

«Галлюцинации возникают не из-за врожденного дефекта нейросетей, а из-за процедур их обучения и оценки.»

«У моделей нет чувства стыда, которое испытывает человек, когда уверенно говорит глупость на глазах у всех.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Галлюцинации ИИ
Генерация моделью фактических ошибок, представленных в уверенной и правдоподобной форме.
RLHF
Reinforcement Learning from Human Feedback — метод дообучения ИИ на основе оценок и предпочтений людей.
Base Model (Базовая модель)
Модель, обученная на огромном массиве данных без специфических инструкций по ведению диалога.
Бенчмарк
Стандартизированный набор тестов для оценки производительности и знаний языковой модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект OpenAI Wes Roth галлюцинации ИИ RLHF бенчмарки ИИ