Янник Килчер запустил платформу OpenAssistant для создания открытого аналога ChatGPT

Известный ИТ-исследователь и специалист в области искусственного интеллекта Янник Килчер представил проект OpenAssistant — амбициозную альтернативу ChatGPT с открытым исходным кодом. В своем детальном обзоре автор разбирает внутреннее устройство краудсорсинговой платформы и призывает международное сообщество подключиться к сбору данных для обучения нейросети. Создатели проекта стремятся доказать, что силами волонтеров можно воспроизвести и превзойти закрытые коммерческие технологии, сделав ИИ доступным для запуска на обычном оборудовании.

🌐 Инициатива OpenAssistant: открытый ответ ChatGPT 0:00

После месячного перерыва Янник Килчер вернулся с анонсом масштабного проекта под названием OpenAssistant. Это полностью открытая реплика популярного чат-бота ChatGPT, над которой команда разработчиков непрерывно трудилась последние недели. Проект сразу же привлек огромное внимание ИТ-сообщества: репозиторий на GitHub удерживал лидерство в трендах платформы в течение трех дней подряд.

Разработчики создают не просто платформу для сбора обучающих данных, но и полноценную инфраструктуру для инференса будущего чат-бота. По замыслу создателей, OpenAssistant должен стать текстовым ассистентом, способным не просто поддерживать диалог, а глубоко понимать задачи и выходить далеко за рамки возможностей стандартного ChatGPT. Основной упор делается на интеграцию со сторонними системами и внешними приложениями, интерфейс которых можно описать на естественном языке.

Важнейшей функцией новой модели станет динамическое извлечение информации из внешних источников. Янник Килчер подчеркивает, что главным недостатком современных языковых моделей остается их статичность, поскольку их знания ограничены весами, полученными при обучении. Блогер заявляет, что уже на протяжении четырех лет он отстаивает тезис, согласно которому модели с возможностью извлечения контекста (Retrieval-Augmented Generation, RAG) станут следующим грандиозным прорывом в индустрии.

При этом команда ставит перед собой прагматичную цель: создать модель такого размера, которую обычный пользователь сможет запустить на стандартном потребительском оборудовании. Речь не идет о микрокомпьютерах вроде Raspberry Pi, однако система должна без проблем работать локально или в рамках очень дешевого облачного развертывания на AWS. По шутливому замечанию Килчера, с такой концепцией и слайдами в Кремниевой долине можно было бы легко привлечь порядка 10 миллионов долларов посевных инвестиций.

📐 Методология: три шага по стопам InstructGPT 2:02

На текущем этапе главной задачей команды является создание минимально жизнеспособного прототипа (MVP). Для этого разработчики строго следуют методологии, описанной в публикации InstructGPT от компании OpenAI. По мнению Килчера, именно этот подход лег в основу создания ChatGPT.

Процесс обучения модели делится на три последовательных этапа:

Сбор демонстрационных данных для последующего контролируемого обучения базовой модели (Supervised Fine-Tuning).
Сбор данных для сравнения и ранжирования ответов с целью обучения модели вознаграждения (Reward Model).
Проведение финального обучения с подкреплением на основе обратной связи от человека (RLHF).

Для реализации этого плана проекту не требуются колоссальные объемы данных. В оригинальном исследовании InstructGPT использовалось около 30 тысяч образцов для каждой подзадачи. Команда OpenAssistant рассчитывает, что для достижения отличных результатов будет достаточно собрать от 50 до 100 тысяч демонстраций. Килчер убежден, что если сообщество проявит активность, этот рубеж будет пройден очень быстро.

Хотя разработчики задействуют синтетические наборы данных, автор видео акцентирует внимание на том, что ничто не способно заменить живой человеческий ввод. По его наблюдениям, люди демонстрируют невероятный уровень креативности при формулировании запросов и ответов.

Центральной структурой данных в проекте выступает так называемое «дерево диалога» (Conversation Tree). Оно развертывается по следующей схеме:

Все начинается с исходной подсказки (prompt), содержащей конкретное задание.
Автора этого запроса называют «подсказчиком» (prompter), чтобы отличать его от конечного пользователя системы.
Для каждой подсказки система собирает несколько вариантов ответов от виртуальных ассистентов.
На каждый ответ ассистента пользователи могут написать новые реплики, формируя разветвленные ветви диалога.

Любой завершенный путь от корня до листа такого дерева становится полноценным диалоговым потоком, который вместе с метаданными и рейтингами отправляется в общую базу данных для обучения.

🖥️ Платформа сбора данных и первые задачи пользователей 4:39

Веб-интерфейс платформы был полностью разработан волонтерами всего за один месяц. Система снабжена полноценной темной темой оформления, чем Килчер искренне гордится. Авторизация на сайте реализована через учетную запись Discord.

После входа пользователю открывается панель управления, где доступно около 10–12 различных типов задач. Одной из базовых является разметка ответа подсказчика (Label prompter reply). В качестве примера Килчер разбирает диалог об установке программ в операционной системе Linux.

В процессе выполнения этой задачи волонтер должен оценить финальное сообщение по ряду критериев:

Проверить текст на наличие спама или нецензурной лексики.
Указать, написан ли текст на корректном языке.
Оценить общее качество реплики (низкое или высокое).
Присвоить дополнительные метки полезности и вежливости.

Автор отмечает, что стандарты оценки реплик ассистента и обычного пользователя различаются. От помощника требуется максимальная вежливость и информативность, в то время как от промптера важно получить реалистичные, пусть даже простые вопросы, которые отражают реальное поведение людей.

В процессе разметки запроса про факторы Яманаки и их влияние на человеческие клетки Килчер указывает на важный побочный эффект платформы. Чтобы дать качественную оценку или написать ответ в роли ассистента, волонтерам зачастую приходится проводить небольшие исследования, изучать Википедию и проверять научные факты. По словам ведущего, это делает процесс не только полезным, но и крайне увлекательным, превращая сбор данных в самообразование.

🏆 Игровые механики и таблица лидеров 9:52

Для стимулирования активности участников на платформе реализована геймификация с системой начисления очков и рейтингами. На сайте отображается таблица лидеров, включающая топ-5 лучших контрибьюторов за текущий день, а также общий исторический зачет.

Максимальное количество баллов начисляется за написание развернутых ответов от лица ассистента. Однако эти очки начисляются с некоторой задержкой, поскольку системе требуется время, чтобы другие участники успели проверить и высоко оценить предложенный текст. В будущем команда планирует ввести реальные призы, памятные кубки или звание «Ассистент недели» для самых активных волонтеров.

Платформа имеет международную направленность. В верхней части интерфейса расположен переключатель языковых зон. На момент записи видео сам интерфейс еще не был полностью переведен, но выбор языка определяет, какие именно текстовые задания будут поступать пользователю. Система поддерживает немецкий, испанский, японский и многие другие языки. Килчер призывает мультиязычных пользователей вносить свой вклад в развитие интернациональных моделей и маркировать реплики, если они по ошибке попали в чужую языковую секцию.

🧠 Творчество на практике: роль ассистента и фактчекинг 11:38

Особый интерес представляют задачи, в которых пользователь берет на себя роль искусственного интеллекта. Килчер демонстрирует это на примере сложного и креативного запроса, автор которого хочет создать аналог известной игры Akinator, но для автоматической генерации веб-приложений на основе ответов пользователя.

В процессе написания ответа блогер размышляет о внедрении шуточной системы «очков сарказма». По его мнению, было бы здорово позволить волонтерам иногда тратить заработанные баллы на ироничные или колкие ответы пользователям, защищая таких авторов от блокировок и минусов со стороны модераторов. Тем не менее для обучения модели Килчер составляет образцовый структурированный ответ, учитывающий, что игровой процесс Akinator строится на закрытых вопросах, требующих ответов «да» или «нет».

Другим важным аспектом работы волонтеров является фактчекинг ответов. Янник натыкается на ветку обсуждения игры Minecraft, где один из пользователей утверждает, что «рыхлый снег» (powdered snow) можно собирать лопатой. Чтобы проверить достоверность этого утверждения, ведущий прямо во время записи видео обращается к официальной энциклопедии Minecraft Wiki.

В ходе экспресс-проверки выясняются следующие детали:

Рыхлый снег собирается исключительно с помощью пустого ведра, а не лопаты.
Игроки и существа проваливаются сквозь этот блок и получают урон от замерзания.
Использование кожаных сапог позволяет перемещаться по поверхности рыхлого снега без проваливания.

Благодаря этому мини-исследованию Килчер аргументированно снижает оценку ошибочному ответу и одобряет корректирующий комментарий другого пользователя. Автор подчеркивает, что нейросети не способны генерировать такие специфические и точные данные без участия людей. В качестве примера невероятного человеческого воображения он приводит абсурдный запрос: «Предположим, у людей есть большие крылья, как у летучих мышей. Как мне помыть спину в тех местах, до которых я не дотягиваюсь?».

🔀 Искусство ранжирования и глубокие кроличьи норы 17:00

Второй по значимости задачей на платформе является ранжирование готовых ответов. Пользователю демонстрируется контекст беседы и несколько альтернативных продолжений, которые необходимо перетащить мышкой, расположив лучшие варианты сверху.

Килчер сталкивается со специфическим режимом «языковой рулетки» (language roulette), где каждый последующий ответ должен быть написан на новом языке. Анализируя ответы на испанском и немецком языках на вопрос «Можно ли приручить лису?», блогер погружается в глубокий анализ научной информации. Он проверяет статьи в Google и натыкается на знаменитый долгосрочный эксперимент советских ученых по доместикации лисиц.

В процессе анализа темы Килчер выделяет ключевые биологические аспекты:

Настоящее приручение дикого животного на уровне вида требует направленной селекции на протяжении десятков поколений.
Одиночные дикие или городские лисы могут демонстрировать смелое поведение ради еды, но они остаются дикими.
В качестве примера ведущий демонстрирует кадры с YouTube-канала Steve Downer, где городская лиса берет еду из рук человека, подчеркивая, что это лишь проявление храбрости, а не домашний статус животного.

Следом за лисами Килчер переходит к оценке ответов про возможность одомашнивания зебр на каталанском и французском языках. Опираясь на данные Библиотеки Конгресса США, он указывает, что зебры, в отличие от лошадей, обладают крайне агрессивным нравом, непредсказуемы, склонны к панике и нападают на людей. Несмотря на отдельные случаи дрессировки или создания гибридов (зонков), данный вид биологически не подходит для полноценной доместикации. На основе этих фактов блогер успешно выстраивает приоритет ответов в задании.

🎭 Специфические сценарии: от D&D до корпоративного цинизма 26:14

Платформа требует жесткой модерации пустых или бесполезных сообщений. Янник демонстрирует первичный запрос, состоящий из одного слова «yo». Несмотря на то, что коммерческие чат-боты способны поддержать такую беседу, Килчер без колебаний помечает этот запрос как спам. Он поясняет, что подобные действия обесценивают труд волонтеров, а авторы таких сообщений в будущем будут получать штрафные очки и блокироваться системой модерации.

В то же время качественные игровые и ролевые сценарии получают максимальное одобрение. Блогер высоко оценивает запрос, в котором пользователя просят выступить в роли мастера подземелий (Dungeon Master) для текстовой игры по правилам Dungeons & Dragons. Ответ системы, детально описывающий таверну, одинокого старика и загадочную светящуюся колоду карт, получает от Килчера статус высококачественного, креативного и полезного контента.

Наиболее детально Янник разбирает задачу по генерации циничного корпоративного письма от лица ИТ-компании, столкнувшейся с утечкой персональных данных пользователей. По условию задания, текст должен быть максимально расплывчатым, написан в высокомерном тоне, с минимумом конкретики и полным перекладыванием вины на хакеров.

Взяв за основу слабый и излишне саркастичный шаблон, предложенный системой, Килчер полностью переписывает его в прямом эфире, демонстрируя классические приемы кризисного PR:

Использование пассивного залога: вместо фразы «мы допустили утечку» пишется «произошел инцидент безопасности в одной из наших систем». Это полностью дистанцирует руководство от возникшей проблемы.
Смещение фокуса на формальное соответствие: в текст добавляется заявление о том, что вымышленная компания «Colorful Pants» строго соблюдает высочайшие отраслевые стандарты и имеет все необходимые юридические сертификаты. Это маскирует выполнение лишь законодательного минимума.
Гиперболизация угрозы: атака хакеров описывается как «беспрецедентно изощренная», с намеком на поддержку со стороны иностранных спецслужб или участие в «государственной кибервойне». Это эффективно снимает ответственность с системных администраторов фирмы.
Перекладывание вины на пострадавших: в финале письма пользователям настойчиво рекомендуется включить двухфакторную аутентификацию, создавая ложное впечатление, что утечка произошла по вине самих клиентов.

В качестве подписи Килчер оставляет ироничное: «С наилучшими пожеланиями, команда вашей любимой семьи Colorful Pants», напоминая о том, как крупные корпорации любят спекулировать на семейных ценностях в моменты кризисов.

📢 Заключение и призыв к действию 34:26

Завершая обзор, Янник Килчер раскрывает особенности архитектуры управления задачами на платформе OpenAssistant. В системе действует автоматический планировщик, который динамически распределяет доступные задания. Это необходимо для того, чтобы волонтеры не создавали избыток данных в одном направлении, оставляя другие критически важные этапы дерева диалогов без внимания.

Автор еще раз напоминает, что качественное выполнение роли ассистента с последующим высоким рейтингом от сообщества — это самый быстрый способ возглавить глобальную таблицу лидеров проекта. Команда OpenAssistant открыта для любого сотрудничества. Разработчики ищут спонсоров, готовых предоставить сувенирную продукцию, мерч или призы для награждения лучших участников. Килчер призывает каждого зрителя посетить сайт, авторизоваться и внести свой вклад в создание по-настоящему свободной и доступной каждому языковой модели.