Как обучить маленькую нейросеть здравому смыслу лучше, чем GPT-3

В новом видео известный IT-блогер Янник Килчер (Yannic Kilcher) подробно разбирает научную работу исследователей из Университета Вашингтона и Института искусственного интеллекта Аллена (AI2). В центре внимания — революционный подход под названием Symbolic Knowledge Distillation, который позволяет автоматически создавать масштабные графы символических знаний. Авторы предлагают отказаться от дорогостоящего ручного труда людей в пользу новой парадигмы, где большая языковая модель генерирует базу знаний, а компактная нейросеть обучается на этих данных, в итоге превосходя своего «учителя».

🧠 От человека к машине: новая парадигма построения баз знаний 0:00

Янник Килчер начинает разбор статьи, посвященной дистилляции символических знаний из General Language Models в Commonsense Models. Традиционный подход к созданию символических графов знаний всегда опирался на схему «от человека к корпусу и затем к машине» (from human to corpus to machine). В этой устаревшей схеме люди вручную придумывали примеры, формировали базу данных, а затем на ней обучалась нейросеть, что требовало колоссальных финансовых и временных затрат.

Новое исследование предлагает кардинально иную парадигму: «от машины к корпусу и снова к машине» (from machine to corpus to machine). В качестве основного источника знаний используется огромная языковая модель GPT-3, обученная на колоссальном объеме текстов из интернета. По мнению авторов работы, GPT-3 способна самостоятельно сгенерировать масштабный корпус здравого смысла, который затем можно отфильтровать и использовать для обучения специализированных моделей.

Самым удивительным открытием стало то, что итоговая дистиллированная модель не просто превзошла системы, обученные на созданных людьми данных, но и оказалась качественнее, чем сам «учитель» в лице GPT-3. Секрет успеха кроется в умном сочетании промпт-инжиниринга, фильтрации данных с помощью небольшого объема человеческой разметки и обучения компактных сетей.

В качестве лирического отступления Янник Килчер упоминает спонсора видео — платформу Weights & Biases. Он отмечает, что этот инструмент полезен для исследователей на всех этапах: от отслеживания экспериментов до оптимизации гиперпараметров и мониторинга метрик при деплое. Ведущий особенно выделяет их форум на базе Discourse, где организованы читательские группы и обсуждения научных статей, подчеркивая, что это отличное место для развития ИИ-сообщества.

🛠️ Анатомия здравого смысла: из чего состоят символические знания 4:17

Ведущий переходит к сути задачи: что именно представляет собой «символическое знание здравого смысла» (commonsense reasoning)?. В данном исследовании речь идет не об энциклопедических фактах вроде места рождения Наполеона, а о базовом понимании причинно-следственных связей в повседневной жизни. Каждая единица знания в графе состоит из трех элементов: события (event), связи/отношения (relation) и вывода (inference).

Событие — это любая ситуация, в которой оказываются один или два человека (условно обозначаемые как X и Y). В работе используются 7 предопределенных типов каузальных отношений.

Янник Килчер приводит несколько примеров таких связей:

Effect (Эффект): что станет возможным следствием события. Например, для события «X начинает бегать» логичным эффектом будет «X приходит в хорошую физическую форму».
React (Реакция): как человек отреагирует на ситуацию. Если событие звучит как «X мало кому нравится», то реакцией может быть «X чувствует себя одиноко».
Need (Потребность): что необходимо для того, чтобы событие произошло.

Подобные выводы невозможно проверить строго математически, однако любой человек, используя здравый смысл, подтвердит их валидность. Ранее для этой задачи существовал эталонный человеческий датасет Atomic 2020, содержащий около 600 тысяч подобных триплетов. На его основе была обучена модель Comet 2020, выполняющая роль базового решения (baseline), которое авторы нового метода намерены превзойти. Результатом же новой работы стал гигантский массив данных Atomic 10x, превосходящий человеческий аналог по объему в 10 раз.

📝 Искусство промптинга: генерация миллионов фактов 12:33

Ключевой инструмент создания нового корпуса — это грамотно выстроенные запросы (clever prompting) к GPT-3. Янник Килчер отмечает, что еще при выходе GPT-3 предсказывал огромную важность промпт-инжиниринга в будущем. Примечательно, что саму модель GPT-3 авторы работы никак не дообучают, а лишь структурированно опрашивают.

Шаблон запроса состоит из короткого описания задачи (task prompt) и набора из 10 примеров в формате «вход-выход» (few-shot prompting). На 11-е место ставится целевой ввод, и модель сама продолжает паттерн.

В ходе экспериментов исследователи выявили несколько важных нюансов промптинга:

Нумерация пунктов: Использование явных номеров (например, 1, 2, 3...) существенно повышает точность следования паттерну со стороны GPT-3.
Замена переменных именами: Если заменить абстрактные переменные X и Y в примерах на обычные человеческие имена, качество генерации становится заметно выше.

Процесс генерации был разделен на два этапа. Сначала создавались сами события. Исследователи взяли всего 100 высококачественных событий из датасета Atomic 2020 в качестве основы. Для каждого запроса они случайно выбирали 10 из них, формировали промпт и просили GPT-3 сгенерировать следующее, 11-е событие. Благодаря использованию ядерного сэмплинга (nucleus sampling) модель выдавала уникальные результаты даже при одинаковом контексте. Таким способом удалось получить 165 000 уникальных событий — для сравнения, в человеческом Atomic 2020 их было всего 6,2 тысячи.

На втором этапе для каждого события генерировались выводы. Каждое из 165 тысяч событий поочередно связывалось с одним из 7 каузальных отношений. Для текстового представления отношений использовались специальные шаблоны (например, для связи need добавлялась фраза «Prerequisites for this to happen:»). Снова используя 10 примеров из человеческого опыта, авторы заставляли GPT-3 дописывать вывод.

Чтобы сэкономить бюджет, исследователи использовали не самую большую, а вторую по старшинству версию GPT-3. В итоге получился колоссальный массив данных из 6,46 миллиона триплетов здравого смысла — корпус Atomic 10x, который обошелся в разы дешевле ручной разметки.

⚖️ Критический учитель: фильтрация данных и роль человека 26:55

Несмотря на огромный объем, сырой машинный датасет изначально уступал человеческому в качестве. Оценка независимых экспертов показала, что в Atomic 2020 люди одобряют (accept) 68% триплетов, тогда как в неотфильтрованном датасете от GPT-3 этот показатель был ниже примерно на 8 процентных пунктов, а количество явного брака — выше. Чтобы исправить это, авторы ввели концепцию «критического учителя» (critical teacher), добавив в систему модель-критик (critic).

Именно на этом этапе авторы стратегически привлекли человеческий труд. Вместо того чтобы заставлять людей придумывать триплеты с нуля (что сложно и утомительно), им поручили простую работу: провалидировать небольшую выборку из 10 000 сгенерированных ИИ записей. Каждому эксперту нужно было лишь быстро разметить пример как «правильный» или «неправильный». На этих данных была обучена модель RoBERTa-large, ставшая тем самым жестким цензором.

Критик оценивает вероятность корректности каждого триплета и позволяет гибко настраивать порог фильтрации. Результаты применения критика превзошли все ожидания:

При мягкой фильтрации (отсеивании ~20% данных) объем корпуса снизился с 6,5 до 5,1 млн триплетов, но уровень одобрения людьми подскочил до 88%.
При жесткой фильтрации (сохранении около 40% наиболее уверенных генераций) уровень одобрения достиг феноменальных 96%. Это на 10 процентных пунктов выше качества датасета, полностью написанного людьми, при этом итоговый граф все равно остался в 4–5 раз крупнее Atomic 2020.

Янник Килчер детально описывает, какой именно мусор отсеивал критик. В основном GPT-3 допускала два типа ошибок. Во-первых, это логические несоответствия (logical misalignment), когда причина и следствие противоречат друг другу (например: «X не может найти рубашку -> В результате X идет в рубашке»). Во-вторых, это корявые или двусмысленные формулировки (awkward phrasings), лишенные смысла изначально (например: «У человека X пожар в ванне»). Интересно, что «мусорные» генерации языковой модели оказались весьма однотипными, поэтому их удаление привело к росту относительного разнообразия и уникальности оставшихся данных.

🚀 Студент превосходит учителя: обучение модели Comet Distill 36:35

Финальный шаг исследования — возвращение от масштабного корпуса обратно к компактной и удобной модели-инференсу. Напрямую использовать GPT-3 для генерации логических выводов в реальных задачах неудобно и дорого: приходится постоянно применять сложные промпты и платить OpenAI за каждый токен. Гораздо эффективнее обучить небольшу локальную нейросеть на уже очищенных данных.

Авторы взяли архитектуру GPT-2 и обучили её на созданном графе Atomic 10x, назвав полученную модель Comet Distill. В процессе обучения триплеты подавались в виде текста «событие + отношение -> вывод». Обученная модель должна была по контексту мгновенно генерировать финальную часть.

Когда исследователи провели слепое тестирование с участием людей, результаты оказались поразительными:

Базовая модель Comet 2020 (обученная на человеческом датасете) выдавала корректные выводы в 81% случаев.
Модель Comet Distill, обученная на данных с мягкой фильтрацией, сразу же обошла базовый вариант.
Модель Comet Distill, обученная на данных после жесткой фильтрации (где выбросили 60% брака), показала результат в 87,5% одобрения.

Таким образом, небольшая модель GPT-2, прошедшая дистилляцию на качественных синтетических данных, обошла по метрикам не только аналог, обученный людьми, но и саму гигантскую GPT-3. По мнению Янника Килчера, такой парадокс объясняется тем, что GPT-3 — это универсальная языковая модель обо всем на свете, тогда как студент был целенаправленно и глубоко оптимизирован под конкретную структуру символических связей. Дополнительным фактором успеха могло стать и то, что обучение студента стартовало с уже предобученного чекпоинта GPT-2, вобравшего в себя базовые паттерны языка.

🔮 Итоги и перспективы: будущее автоматического построения графов знаний 41:06

Подводя итоги работы, Янник Килчер соглашается с ключевыми выводами авторов. Процесс извлечения символических знаний из больших языковых моделей теперь можно официально рассматривать как полноценное символическое расширение классической дистилляции знаний (knowledge distillation). Эксперимент наглядно доказал, что машины способны успешно справляться со сложной задачей построения графов здравого смысла, минимизируя участие человека.

Тем не менее ведущий делает критическую ремарку по поводу громкого заявления авторов о том, что «машины победили людей в автоматическом создании баз знаний». По мнению Килчера, это утверждение слегка преувеличено (shady), поскольку в процессе обучения критика все равно использовалась человеческая разметка. Однако истинная ценность работы заключается в переосмыслении роли человека: вместо долгого и дорогого придумывания примеров с нуля, гораздо эффективнее использовать людей как цензоров и контролеров качества для фильтрации машинного потока данных.

По мнению ведущего, предложенный метод «от машины к корпусу и к машине» — это готовый и крайне перспективный рецепт для индустрии. С помощью умного промпт-инжиниринга и каскадного обучения моделей можно эффективно решать множество других прикладных задач в области обработки естественного языка (NLP), экономя огромные ресурсы.