# Студенты MIT опровергли заявление о стопроцентном успехе GPT-4 на экзаменах

Источник: https://www.youtube.com/watch?v=Tkijsu129M0
Канал: Yannic Kilcher
Опубликовано: 21.06.2023

---

В новом выпуске новостей машинного обучения эксперт Янник Кильчер разбирает громкую научную работу о якобы стопроцентной успеваемости GPT-4 на экзаменах в MIT, которая при ближайшем рассмотрении оказалась фикцией. Студенты Массачусетского технологического института провели собственное расследование и вскрыли манипуляции с методологией тестирования нейросети. Кроме того, ведущий делится радостными новостями для open-source сообщества — состоялся релиз полностью открытой языковой модели OpenLLaMA 13B.

## 👵 Бабушка, Windows 10 и «идеальный» экзамен MIT
[[JUMP:0:00]]

Индустрия искусственного интеллекта продолжает генерировать как курьезные, так и откровенно скандальные инфоповоды. Янник Кильчер начинает выпуск с забавного примера сетевой изобретательности: неизвестный пользователь обошел ограничения безопасности ChatGPT, попросив нейросеть притвориться его покойной бабушкой, которая читала ему перед сном лицензионные ключи для Windows 10 Pro. Чат-бот выразил соболезнования и послушно выдал рабочий список ключей. 

Однако более серьезной темой для обсуждения стала новая научная работа, подготовленная группой исследователей из MIT и других институтов. Авторы задались целью проверить, как современные большие языковые модели справляются с официальной учебной программой Массачусетского технологического института по математике и электротехнике (EECS). 

Для этого исследователи собрали комплексный датасет:

* В базу данных вошло 4550 вопросов и соответствующих им эталонных решений.
* Материалы были взяты из 30 различных курсов MIT, необходимых для получения диплома.
* Процесс сбора был полуавтоматическим: формулы распознавались через OCR, а ошибки извлечения правились вручную.

Собранные задания разделили на обучающую и тестовую выборки, после чего запустили тестирование моделей. Результаты, заявленные в аннотации к статье, выглядели сенсационно: если базовая GPT-3.5 смогла решить лишь треть заданий, то GPT-4 с применением продвинутого промпт-инжиниринга показала идеальный результат — 100% правильно решенных задач из тестового набора, не содержащих изображений. По мнению Янника Кильчера, такой показатель выглядит не просто круто, а крайне подозрительно.

## 🛠️ Семь уровней промпт-инжиниринга и каскадный обман
[[JUMP:2:45]]

Чтобы понять, как авторы статьи добились идеального результата, необходимо разобрать их методологию. Они использовали иерархическую систему подходов (эвристик) к генерации ответов:

1.  **Zero-shot:** модели просто дается задача без примеров.
2.  **Few-shot:** система ищет похожие задачи в базе с помощью векторных эмбеддингов, находит ближайших соседей и передает их вместе с решениями в контекст модели.
3.  **Chain of Thought:** модель просят рассуждать шаг за шагом.
4.  **Tree of Thought:** более продвинутый поиск по дереву рассуждений.
5.  **Program synthesis:** GPT-4 пишет код для решения математической задачи.
6.  **Critique:** модель сама критикует свои промежуточные ответы для их улучшения.
7.  **Expert prompting:** новая идея авторов, когда модель сначала просят назвать трех экспертов в нужной области (например, Дональда Кнута), а затем в следующем запросе заставляют ее подыгрывать этой роли.

Для проверки результатов применялся автоматический грейдинг (automatic grading) с помощью той же GPT-4. Ей подавался вопрос, эталонный ответ и ответ модели, после чего выставлялась оценка от 0 до 5. 

Главный подвох, по словам Янника Кильчера, крылся в механизме каскадирования ответов. Скрипт запускал эвристики последовательно в цикле: если на этапе zero-shot автоматическая проверка показывала, что ответ неверен, система не засчитывала ошибку, а переходила к следующему уровню — few-shot, затем к экспертным промптам и так далее. Попытки продолжались до тех пор, пока грейдер не говорил «правильно». 

Самое критичное здесь то, что функция проверки на каждом шаге имела доступ к *эталонному золотому решению*. Нейросеть могла ошибаться сколько угодно раз, но за счет бесконечных циклов и подглядывания в ответ со стороны тестирующей системы результат в итоге подгонялся под 100%. В случае с вопросами с множественным выбором (а это 16% всего теста) такая схема фактически гарантировала успех методом обычного перебора.

## 🕵️ Расследование студентов MIT: нерешаемые задачи и дубликаты
[[JUMP:6:37]]

Обман продержался недолго. Трое студентов-выпускников MIT — Ранак Чаудхури (Ranak Chaudhuri), Нил Дешмук (Neil Deshmukh) и Дэвид Коплоу (David Coplow) — провели собственную верификацию и опубликовали разгромный документ с говорящим названием «Нет, GPT-4 не может сдать экзамены в MIT». Они смогли изучить тестовый датасет, который авторы оригинального исследования случайно выложили в публичный репозиторий на GitHub, а затем попытались удалить (забыв очистить историю коммитов).

Студенты обнаружили колоссальные проблемы с данными:

* **Абсолютно нерешаемые вопросы:** около 4% тестовой выборки физически невозможно решить в том виде, в каком они были переданы модели. Например, вопрос звучит так: «Какие вызовы выполняются параллельно?». Никакого контекста или куска кода к нему не прилагалось, поскольку задача была вырвана из контекста цельного экзаменационного билета. 
* **Зависимые задачи:** в некоторых промптах содержался текст «Эта задача является вариацией задачи №2», но самой второй задачи в контексте не было. Очевидно, что без жульничества или стопроцентного совпадения с обучающей выборкой решить это было нельзя.
* **Мусорные данные:** часть вопросов вообще не предполагала конкретного ответа. Нейросети предлагалось «составить проектное предложение для NLP-задачи» или оценивалось вводное предложение к тесту вроде «В этой задаче мы используем ряд Тейлора».
* **Прямые дубликаты:** студенты нашли 14 идентичных вопросов (7 пар) внутри выборки из 288 проверенных заданий. При использовании few-shot эвристики алгоритм поиска похожих вопросов находил точную копию этой же задачи с уже готовым ответом и подставлял её в контекст. Модели оставалось просто скопировать текст.

Кроме того, независимые исследователи в Twitter подтвердили, что многие вопросы из датасета один в один гуглятся на публичных сайтах, а значит, гарантированно присутствовали в терабайтах обучающих данных самой GPT-4.

## 🐛 Перепутанные параметры и системные баги
[[JUMP:22:44]]

Внимательно изучив код авторов нашумевшей статьи, студенты MIT наткнулись на нелепые баги. В коде оценщика системный промпт (system prompt) и промпт с вопросом (question prompt) были перепутаны местами при вызове функции. В итоге GPT-4 получала на вход конструкции в духе: «Ты — вопрос. Твоя задача — ответить на системные инструкции». Из-за этого модель регулярно впадала в ступор и выдавала бессмыслицу, заявляя, что ей предоставили имя вместо задания.

Промпт для вызова «экспертов» тоже работал из рук вон плохо. Код ожидал, что модель вернет три имени, разделенных запятыми. Вместо этого GPT-4 часто генерировала развернутый абзац с рассуждениями. Скрипт пытался парсить этот текст по запятым, в результате чего в качестве «имен экспертов» в систему уходили случайные обрывки фраз. 

Янник Кильчер отмечает, что главный старший автор оригинального исследования уже замечался в публикациях с подобной сомнительной методологией, где переход от zero-shot к few-shot происходил скрытно и только в случае неверного первоначального ответа. Ведущий выражает глубокий скептицизм по поводу эффективности традиционного академического рецензирования на конференциях. По его мнению, ни один рецензент не тратит на проверку столько сил, сколько потратили эти трое студентов, и статья легко могла бы пройти верификацию, если бы авторы не заявили слишком вызывающие «100%».

## 🦙 OpenLLaMA 13B: настоящий open-source бросает вызов Meta
[[JUMP:29:14]]

В заключительной части видео Кильчер переходит к позитивным новостям из мира открытого ПО. Команда исследователей из Беркли (включая Синьян Гэна и Хао Лю) представила модель OpenLLaMA в версии 13B (13 миллиардов параметров).

OpenLLaMA представляет собой точную реплику знаменитой модели LLaMA от Meta, но со строгим соблюдением принципов открытости:

* **Чистый датасет:** модель обучена на наборе данных RedPajama, который является полностью открытым.
* **Свободная лицензия:** в отличие от оригинальной LLaMA, новинка поставляется под разрешительной лицензией Apache. Ее можно легально использовать в коммерческих продуктах без ограничений.
* **Объем обучения:** модель с 13 млрд параметров успела пройти обучение на 1 триллионе токенов, сравнявшись по этому показателю с оригиналом от Meta.

График падения потерь (training loss) показывает стабильные, предсказуемые и крайне многообещающие результаты. Вычислительные мощности для этого проекта были безвозмездно предоставлены программами Google Research Cloud и компанией Stability AI. Сообщество надеется, что разработчики не остановятся на достигнутом и в будущем воссоздадут более крупные версии оригинальной линейки моделей.