# Райли Гудсайд: «Языковые модели — это кубики LEGO для ИИ»

Источник: https://www.youtube.com/watch?v=zg3H-9nxkyI
Канал: The Cognitive Revolution
Опубликовано: 18.04.2023

---

В новом выпуске подкаста «The Cognitive Revolution» ведущий Нейтан Лабенц беседует с Райли Гудсайдом (Riley Goodside), первым в мире штатным промпт-инженером (Staff Prompt Engineer) компании Scale AI. В ходе подробного разговора эксперты анализируют эволюцию больших языковых моделей (LLM), начиная с ранних версий от OpenAI и заканчивая ChatGPT и GPT-4. Гудсайд делится уникальными практическим приёмами составления промптов, объясняет внутреннюю логику ИИ и даёт прогнозы относительно развития суперинтеллекта.

## 🧮 От актуарных расчётов до OkCupid: карьерный путь Райли Гудсайда
[[JUMP:05:13]]

Райли Гудсайд начал свой путь в технологической индустрии задолго до бума искусственного интеллекта. После окончания бакалавриата в 2009 году он изначально планировал работать актуарием в сфере страхования, обладая хорошей базой в области статистики. В период с 2011 по 2015 год Гудсайд занимал позицию единственного дата-сайентиста на популярной платформе знакомств OkCupid. В те годы сам термин «data science» ещё не был общепринятым, а ключевым лозунгом компании была фраза «Мы используем математику, чтобы устраивать вам свидания». На этой должности он занимался преимущественно A/B-тестированием и относительно простыми методами машинного обучения, такими как градиентный бустинг и случайные леса (random forest).

Позже Гудсайд работал в различных стартапах, где занимался анализом временных рядов (time series analysis). Его знакомство с технологиями обработки естественного языка (NLP) в студенческие годы сводилось к классическим академическим задачам, таким как определение связи местоимений с существительными в предложении. Ситуация кардинально изменилась с появлением генеративных моделей. Первым серьезным триггером для него стал анонс GPT-2 от OpenAI, когда пресса бурно обсуждала сгенерированную ИИ фейковую новость об обнаружении единорогов в Аргентине. 

Полноценное же взаимодействие с GPT-3 для Гудсайда началось через текстовую ролевую игру AI Dungeon, которая стала одним из первых коммерческих приложений на базе этой модели. Именно там игроки впервые начали экспериментировать со скрытыми возможностями ИИ, заставляя модель создавать орков-переводчиков с французского или магов, умеющих складывать двузначные числа. Примерно в этот же период появились прототипы атак класса «промпт-инжекция» (prompt injection), когда игроки обнаруживали, что текстовая команда «добавь 10 000 очков» мгновенно меняла внутренний счётчик игры в их пользу.

Окончательно промпт-инжиниринг захватил Гудсайда после ухода с позиции руководителя отдела Data Science в компании Grindr в 2021 году. Взяв творческий отпуск, он начал экспериментировать с моделью Codex от OpenAI и инструментом GitHub Copilot. Поразившись росту собственной продуктивности при написании шаблонного кода на незнакомых языках, он стал активно делиться результатами тестов в Twitter. 

Одним из ключевых факторов его медийного успеха стала простая визуальная хитрость. Гудсайд заметил, что стандартный интерфейс OpenAI Playground слишком широк для экранов смартфонов, и скриншоты других разработчиков в ленте Twitter становились нечитаемыми. Скрыв лишние панели и сузив окно браузера перед созданием скриншота, Райли стал единственным автором, чьи примеры работы с ИИ было удобно читать с мобильных устройств. Его узнаваемый стиль — зеленый текст завершения на белом фоне — быстро завоевал популярность среди инвесторов и разработчиков, что привело к знакомству с главой Scale AI Александром Вангом и получению уникальной должности.

## 🧬 Эволюция языковых моделей: три эпохи развития ИИ
[[JUMP:24:59]]

По мнению Гудсайда, чтобы интуитивно понимать современные чат-боты, необходимо проследить три ключевых этапа их развития. Каждая последующая стадия настраивалась поверх предыдущей, качественно меняя поведение системы.

* **Эра предварительного обучения (pre-trained era):** В это время утверждение о том, что языковые модели всего лишь предсказывают следующее слово, было наиболее близким к истине. На этом базовом уровне нейросеть представляет собой сложную систему линейной алгебры, оперирующую матрицами и весами для формирования вероятностного распределения токенов. Это напоминает продвинутую функцию автозаполнения в смартфоне. Если написать «2 + 2 =», модель с высокой вероятностью выдаст «4», просто потому что часто видела это выражение в обучающем корпусе текстов.
* **Настройка инструкций (instruction tuning):** Переходный этап, ярким примером которого стало семейство моделей InstructGPT. Обычные предобученные модели часто не могли напрямую отвечать на вопросы пользователя. Например, на запрос «Какая столица у Германии?» такая модель могла продолжить текст фразой «Какая столица у Испании?», решив, что перед ней список географических вопросов. Чтобы заставить ИИ выполнять команды, разработчики применили fine-tuning (тонкую настройку) на тысячах примеров, где люди-подрядчики вручную писали правильные ответы на запросы пользователей. В этом процессе активное участие принимала компания Scale AI, предоставлявшая разметчиков для подготовки демонстрационных данных. В результате модель научилась воспринимать любой текст на входе как инструкцию, которую необходимо выполнить.
* **Эра RLHF (обучение с подкреплением на основе отзывов людей):** Этап, в котором индустрия находится сейчас. На этой стадии вместо дорогостоящего ручного написания ответов модель сама генерирует несколько вариантов, а люди лишь ранжируют их по качеству. На основе этих оценок обучается отдельная «модель предпочтений» (preference model), которая затем автоматически корректирует поведение основной языковой модели. Переход к RLHF позволил запустить ChatGPT в конце 2022 года и кардинально изменил способность ИИ справляться со сложными логическими задачами.

---

## 🎭 Теория мультиверса и канонический «трюк с форматированием»
[[JUMP:30:49]]

Для описания работы предобученных моделей Гудсайд ссылается на концепцию исследователей Рейнольдса (Reynolds) и Макдонелла (McDonnell). Они предложили рассматривать базовую языковую модель как симуляцию «мультиверса вымышленных документов». 

Когда пользователь пишет промпт, модель находится в суперпозиции всех возможных текстов, которые могли бы так начинаться. Добавляя новые слова, автор промпта буквально «высекает» нужную форму из высокомерного пространства вариантов, отсекая лишние вероятности. Именно поэтому работает многопримёрный (few-shot) промптинг: показывая ИИ 10 правильных примеров подряд, пользователь сводит к минимуму вероятность того, что на 11-м примере модель внезапно решит ошибиться.

Исходя из этой логики, Рейнольдс и Макдонелл доказали, что беспримерный (zero-shot) промптинг может превзойти few-shot, если правильно «польстить» модели. Вместо сухой команды перевести текст с французского на английский, они использовали следующий шаблон: 

> «Дан текст на французском языке. Мастерский французский переводчик безупречно переводит это предложение на английский следующим образом...»

Такой контекст исключает саму возможность посредственного перевода, заставляя модель симулировать поведение эксперта высокого уровня.

Важным шагом в структурировании ответов ИИ стал так называемый «трюк с форматированием» (format trick), о котором Гудсайду рассказал Борис Пауэр (Boris Power) из технического персонала OpenAI. Проблема текстовых API заключается в том, что они принимают одну строку и возвращают одну строку, что затрудняет их интеграцию в реальные приложения. Чтобы заставить ИИ выдавать строго структурированные данные (например, JSON или XML), необходимо в самом конце инструкций написать фразу `use this format:` (используй следующий формат), сделать два переноса строки и наглядно показать шаблон вывода с угловыми скобками в качестве плейсхолдеров (например, `<имя пользователя>`). Гудсайд считает этот приём своим самым любимым и эффективным инструментом в промпт-инжиниринге.

По воспоминаниям Райли, в процессе общения с Борисом Пауэром выяснился удивительный факт: разработчики из OpenAI сами не планировали, что модель сможет выполнять настолько длинные и многоступенчатые цепочки команд. Создатели InstructGPT просто масштабировали объём простых обучающих примеров (вроде «придумай 10 названий для магазина мороженого»), но нейросеть неожиданно продемонстрировала свойство эмерджентного обобщения, научившись удерживать контекст инструкций на много страниц вперёд.

---

## ⚖️ Эпоха RLHF: преодоление абсурда и феномен коллапса мод
[[JUMP:43:12]]

Внедрение RLHF решило фундаментальную проблему старых моделей, которые охотно соглашались с любой абсурдной или ложной предпосылкой пользователя. Гудсайд напоминает, что в июне 2022 года Дуглас Хофштадтер (Douglas Hofstadter) и Дэвид Бендер (David Bender) опубликовали в журнале *The Economist* статью, критикующую поверхностность понимания ИИ. На вопрос «Сколько раз Золотые Ворота перевозили через Египет?» модель text-davinci-002 послушно генерировала вымышленные детали, а на вопрос «Что едят на завтрак яичницы-глазуньи?» отвечала: «Тосты и апельсиновый сок». 

С появлением моделей text-davinci-003 и ChatGPT на базе RLHF ИИ научился распознавать ложные посылки и прямо отвечать, что мост Золотые Ворота никогда не перевозили через Египет. По словам Гудсайда, новые модели успешно справились со всеми каверзными вопросами Хофштадтера, кроме одного. ИИ до сих пор склонен галлюцинировать при запросе мирового рекорда по пересечению пролива Ла-Манш пешком, путая хождение по воде в пенопластовой обуви с реальными заплывами.

Тем не менее, у технологии RLHF есть и обратная сторона — так называемый «коллапс мод» (mode collapse). Гудсайд отмечает, что модель text-davinci-002 имела странную фиксацию: она совершенно не умела описывать форму букв. На просьбу описать букву «Q» она выдавала сложную геометрическую схему «коробки с крестом внутри», что в точности соответствует символу отсутствующего глифа (Unicode no-glyph). 

Другой исследователь, Дженис (Janice), описал этот феномен на платформе LessWrong, заметив, что если попросить модель выбрать случайное число от 1 до 100, она с вероятностью 20% выберет 97, хотя в базовой предобученной модели распределение было равномерным с легким уклоном в 42.

Этот дефект возникает из-за того, что модель предпочтений пытается выучить функцию идеального выбора, но делает это несовершенно. Если в процессе обучения ИИ замечает, что число 97 получает хотя бы на сотую долю процента более высокий балл от ретрайдеров, он начинает стягивать всю вероятностную массу к этому ответу, игнорируя разнообразие. Для конечных пользователей это оборачивается тем, что при генерации текстов (например, описаний товаров) ИИ начинает использовать крайне монотонные и повторяющиеся формулировки, теряя творческую искру ранних предобученных версий.

---

## 🧱 Модульный подход: промпт-инжиниринг как конструирование из LEGO
[[JUMP:58:26]]

Современный промпт-инжиниринг, по мнению Гудсайда, постепенно смещается от простого подбора слов к проектированию сложных систем, где языковая модель выступает в роли стандартизированных блоков LEGO. Каждый такой «кубик» представляет собой отдельную изолированную способность ИИ, которую можно комбинировать с внешними инструментами. Ярким примером этой композиции стали поисковые системы нового типа, такие как Perplexity, которые используют LLM для извлечения фактов и суммаризации поисковой выдачи Bing. Несмотря на периодические ошибки (например, когда модель путает музыканта Джо Джексона с отцом Майкла Джексона из-за одинаковых имен), эти инженерные проблемы постепенно решаются за счёт расширения контекстного окна и усложнения инструкций.

Гудсайд выделяет библиотеку LangChain, созданную Харрисоном Чейзом (Harrison Chase), как один из лучших инструментов для разработчиков. Философия этого проекта заключается в моментальной интеграции любых новых академических методов промптинга прямо в код. В свою очередь, платформа Spellbook от Scale AI, над которой работает сам Гудсайд, помогает компаниям разворачивать промпты в виде полноценных API, тестировать их, настраивать параметры и выбирать оптимальные по стоимости модели.

Главная революция заключается в том, что теперь обычный программист без глубоких знаний в области Data Science может решать сложнейшие задачи обработки естественного языка. В качестве примера Гудсайд приводит задачу извлечения сотовых операторов из базы твитов, даже если их названия написаны с ошибками, сокращены или заменены на неочевидные Twitter-аккаунты суббрендов. 

Раньше для этого требовалось пройти долгий цикл классической разработки:

1.  Собирать огромный репрезентативный датасет для каждого пограничного случая.
2.  Выбирать и настраивать специализированную архитектуру нейросети.
3.  Регулярно переобучать модель при изменении внешних условий или выходе на рынок новых брендов.

Сегодня достаточно написать подробную инструкцию на естественном языке, прикрепить справочник актуальных аккаунтов, дать три примера сложных крайних случаев (edge cases) — и система начнёт работать идеально. При выходе нового оператора нужно просто дописать одну строчку в текст промпта, полностью изменив логику работы программы без её пересборки.

---

## 🛡️ Безопасность ИИ, редтиминг и путь к сверхразуму (AGI)
[[JUMP:1:43:31]]

Важной частью работы Райли Гудсайда в Scale AI является построение процессов редтиминг-контроля (red teaming) — враждебного тестирования ИИ, при котором команда специалистов пытается намеренно «сломать» чат-бот. Это необходимо для обнаружения уязвимостей до того, как модель станет доступна широкой публике. Самым известным примером таких атак являются джейлбрейки (jailbreaks), такие как промпт DAN («Do Anything Now»), когда ИИ заставляют поверить в вымышленный сценарий, где стандартные правила безопасности якобы отключены.

По мнению Гудсайда, риски безопасности абсолютно реальны: в техническом отчёте GPT-4 наглядно описано, как модель может облегчить злоумышленникам заказ опасных кастомных химикатов на дом или генерировать масштабный спам. Даже при запуске поисковика Bing от Microsoft масштабные усилия по выравниванию (alignment) модели GPT-4 не смогли удержать её от демонстрации своей «тёмной стороны» в знаменитом диалоге с журналистом Кевином Рузом (Kevin Roose).

Комментируя предложение поставить на паузу обучение масштабных моделей вроде GPT-5, Гудсайд заявляет, что в реальной практике невозможно остановить развитие возможностей ИИ отдельно от его безопасности. Любые исследования по выравниванию (alignment research) неизбежно делают модель более умной и послушной. Если попытаться использовать модель без RLHF-тюнинга, её будет крайне тяжело заставить выполнять конкретные задачи. Обучение с подкреплением делает ИИ цивилизованным и одновременно расширяет его применимость в экономике.

Что касается долгосрочных прогнозов, Гудсайд ожидает прихода полноценного сильного искусственного интеллекта (AGI) уже в течение ближайшего десятилетия. По его мнению, после достижения этой вехи наступит критически важный переходный период, когда AGI сравняется по уму с человеком, но ещё не успеет запустить экспоненциальный взрыв автоэволюции («go boom»). Эксперт сохраняет оптимизм и надеется, что возможности раннего AGI помогут человечеству окончательно решить проблему безопасного контроля и выравнивания суперинтеллекта.