# Open-Source против OpenAI: Янник Кильчер представил первые модели OpenAssistant

Источник: https://www.youtube.com/watch?v=Hi6cbeBY2oQ
Канал: Yannic Kilcher
Опубликовано: 06.04.2023

---

Янник Кильчер (Yannic Kilcher) представил первые рабочие модели OpenAssistant — амбициозного проекта по созданию полностью открытой альтернативы ChatGPT. В этом обзоре автор демонстрирует возможности нейросети, объясняет сложности с лицензированием проприетарных весов и благодарит мировое сообщество за беспрецедентный вклад в сбор обучающих данных.

## 📅 Долгожданный релиз и сила сообщества
[[JUMP:00:00]]

Янник Кильчер объявил, что проект OpenAssistant переходит в стадию публикации первых результатов [0:05]. Главной гордостью проекта стал огромный массив данных, собранный благодаря добровольцам. По мнению ведущего, «человеческие данные — это нечто потрясающее», и любой желающий может убедиться в этом, пролистав вкладку сообщений на сайте проекта, где виден креатив и усилия людей, обучающих систему быть хорошим помощником [0:39].

Официальная дата полномасштабного релиза назначена на 15 апреля [0:53]. В этот день планируется опубликовать:

*   Сами модели.
*   Полные наборы данных (datasets).
*   Вспомогательный софт и документацию.

На текущий момент представлены модели, прошедшие этап SFT (Supervised Fine-Tuning) — это первая ступень в пайплайне разработки, за которой последуют более сложные итерации [1:05].

## 🤝 Команда, спонсоры и ресурсы
[[JUMP:01:05]]

Проект OpenAssistant — это результат работы большой группы контрибьюторов. Кильчер подчеркнул, что на сайте появилась страница команды, где перечислены основные участники. Он призвал работодателей обратить внимание на этих специалистов, назвав их «абсолютно потрясающими» [1:18]. 

Проект также получил поддержку от технологических спонсоров:

*   **Redmond** — предоставили вычислительные мощности для обучения моделей.
*   **Talking Face** — выделили кредиты на инференс (запуск моделей).
*   **Weights & Biases** — предоставили командную лицензию для отслеживания экспериментов [1:30].

Ведущий отметил, что проект остро нуждается в видеокартах уровня NVIDIA A100. Если у кого-то из зрителей есть свободные мощности, команда готова принять их для расширения пропускной способности интерфейса [2:23].

## 🧪 Демонстрация возможностей: от Хогвартса до кошачьей дипломатии
[[JUMP:02:36]]

В ходе видео Янник Кильчер показал несколько примеров работы модели Llama 30B, дообученной на данных OpenAssistant.

1.  **Креативное письмо:** Модель успешно составила жалобное письмо в Хогвартс от лица мага, которого не приняли в школу, упомянув почтовую службу сов и отсутствие прогресса в магии [2:49].
2.  **Сложные сценарии:** В примере с «дипломатическим решением» конфликта между котом и мышами, нейросеть предложила создать в доме «зоны, свободные от котов» и наладить каналы коммуникации для мирного сосуществования [4:32].
3.  **Ролевые игры:** Модель вошла в образ основателя «Религии Святого Ногтя», предлагая скидки на педикюр и духовное руководство. Кильчер иронично заметил, что ИИ точно уловил суть подобных культов — быстро превращаться в коммерческую структуру [6:57].
4.  **Политическая сатира:** По запросу модель написала речь президента США о дефиците туалетной бумаги, используя характерную риторику с обвинениями оппозиции и призывами «осушить болото» [8:29].

Автор признал, что у моделей есть проблемы с долгосрочной связностью (coherence) из-за короткого контекстного окна, на котором проводилось обучение [5:51]. В одном из тестов рецепт бургера, переписанный как математическое доказательство, постепенно превратился в бессвязный набор символов [9:37].

## 🌍 Мультиязычность и вклад испанского сообщества
[[JUMP:09:50]]

Особую благодарность Янник Кильчер выразил блогеру под ником **dot CSV** (Карлос). Благодаря его призыву к своей аудитории, количество вкладов на испанском языке в базу OpenAssistant сравнялось с английским сегментом [10:16]. Это позволило модели выдавать качественные ответы на испанском, несмотря на то что основной претрейнинг был смещен в сторону английского языка.

## 🛠️ Техническая база: Llama, Pythia и вопросы лицензирования
[[JUMP:12:57]]

Текущая модель в чат-интерфейсе базируется на архитектуре Llama от Meta (30 млрд параметров) [12:58]. Однако здесь возникает юридическая коллизия: лицензия Llama запрещает свободное распространение весов. 

В связи с этим организация LAION и команда OpenAssistant выбрали следующую стратегию:

*   **Для Llama-моделей:** Будут выпущены «diff-веса» (разница между оригинальной моделью и дообученной) и скрипты для воспроизведения. Это позволит пользователям легально собрать модель у себя [13:12].
*   **Для Pythia-моделей:** Эти модели от EleutherAI полностью открыты и доступны на Hugging Face Hub. Их можно использовать в коммерческих целях без ограничений, хотя они пока немного уступают Llama в качестве [13:40].

Янник выразил надежду, что вскоре появятся новые, полностью свободные базовые модели, сравнимые по мощности с Llama [14:07].

## 🖥️ Инструкция по использованию интерфейса
[[JUMP:14:30]]

Для тех, кто хочет протестировать OpenAssistant лично, Кильчер привел краткий туториал:

1.  **Адрес:** Перейдите по ссылке `open-assistant.io/chat`. На данный момент навигация через боковую панель может не работать, поэтому нужно вводить `/chat` вручную в адресной строке [14:46].
2.  **Авторизация:** Если интерфейс ведет себя странно, рекомендуется принудительно обновить страницу, выйти из аккаунта и войти снова [14:55].
3.  **Настройки:** В интерфейсе можно менять параметры сэмплинга (sampling parameters) и выбирать пресеты ответов [15:12].
4.  **Ограничения:** Из-за огромного наплыва пользователей и ограниченных вычислительных мощностей система может работать медленно или выдавать ошибки тайм-аута. Кильчер призвал к терпению и пригласил разработчиков помогать с кодом через Pull Requests на GitHub [15:51].

В заключение Янник Кильчер еще раз поблагодарил всех волонтеров, отметив, что без их времени и усилий создание открытого ассистента такого уровня было бы невозможно [16:30].