Янник Кильхер объявил о релизе полностью открытого ИИ OpenAssistant

Yannic Kilcher 149 тыс. 21 мин 7 мин 15.04.2023
Главное

Состоялся официальный релиз OpenAssistant — полностью открытого ассистента с искусственным интеллектом, созданного силами глобального сообщества волонтеров. Известный ИТ-исследователь и блогер Янник Кильхер (Yannic Kilcher) представил этот проект как полноценную альтернативу коммерческим продуктам от крупнейших технологических корпораций. Разработчики выложили в открытый доступ не только исходный код и веса обученных моделей, но и уникальный массив человеческих диалогов, собиравшийся на протяжении последних нескольких месяцев.

🌍 Масштаб волонтерского подвига и уникальный датасет 0:00

Янник Кильхер объявил о запуске OpenAssistant, назвав его лучшим в мире истинно открытым ИИ-помощником. Проект представляет собой масштабный международный краудсорсинговый процесс, призванный передать технологии разговорного ИИ в руки обычных людей, исследователей и бизнеса, избавив индустрию от монополии нескольких крупных корпораций. Активная работа над платформой для сбора данных началась еще перед Рождеством в конце прошлого года.

За этот период разработчикам удалось достичь внушительных результатов. Было собрано более 600 000 взаимодействий с пользователями, среди которых 150 000 сообщений представляют собой демонстрации идеальной работы ИИ-ассистента, написанные людьми. Итогом этой работы стали более 10 000 полностью размеченных и аннотированных диалоговых деревьев. Тематика собранных данных поражает разнообразием: от написания сложного программного кода до пошаговых рецептов приготовления омлета. Кроме того, база данных охватывает огромное количество языков. Весь этот массив удалось собрать благодаря безвозмездному вкладу более чем 13 000 волонтеров со всего мира.

Янник Кильхер в шутку заметил, что из-за невероятной мощности и гибкости получившихся моделей команда всерьез подумывала закрыть проект, сделать его приватным и продавать подписки со скидкой. Однако это был лишь сарказм, высмеивающий политику некоторых коммерческих лабораторий. Разработчики OpenAssistant полностью верны принципам open-source: датасет, исходный код, веб-интерфейс, научная статья и подробные отчеты о подборе гиперпараметров в системе Weights & Biases находятся в абсолютно свободном доступе для любого желающего. Полный текст исследования официально публикуется на платформе arXiv.

🤖 Архитектура моделей и независимость для бизнеса 3:26

В рамках официального релиза команда представила несколько версий нейросетей. Часть моделей базируется на архитектуре LLaMA от компании Meta. Их лицензия накладывает ограничения, позволяя использовать разработки исключительно в исследовательских целях. Однако команда также подготовила модели на базе архитектуры Pythia. По словам Янника Кильхера, эти модели являются полностью открытыми и на 100% пригодными для коммерческого использования в бизнесе.

Важной технической особенностью релиза является то, что любая из представленных моделей способна поместиться в память одной видеокарты. На практике это может быть мощный профессиональный графический ускоритель, но сам факт локального запуска критически важен. Автор выразил уверенность, что при текущих темпах оптимизации со стороны open-source сообщества эти алгоритмы в ближайшем будущем смогут «работать даже на тостере».

Для коммерческого сектора появление OpenAssistant способно кардинально изменить правила игры. Компании, которые по соображениям конфиденциальности или безопасности не могут отправлять внутреннюю корпоративную информацию на серверы OpenAI, получили возможность развернуть независимую систему на собственных мощностях. При этом создатели проекта призывают бизнес активно возвращать ценность в экосистему: делиться кейсами внедрения, публиковать научные цитирования и передавать обратно в сообщество улучшенные датасеты или тонко настроенные версии моделей. Публичный веб-интерфейс OpenAssistant выполняет двойную задачу: он служит не только демонстрационной площадкой, но и инструментом модерации новых моделей и дополнительного сбора данных через систему пользовательских оценок.

🛠️ Как протестировать OpenAssistant и особенности интерфейса 5:53

Основной точкой входа для тестирования системы стал веб-ресурс openassistant.io/chat. Чтобы оценить возможности ИИ и поднять себе настроение, Янник Кильхер рекомендует пользователям попробовать намеренно вступить с моделью в спор на какую-нибудь абсурдную тему. В левой панели интерфейса чата находится иконка шестеренки, открывающая доступ к техническим настройкам сэмплинга текста. По умолчанию там выставлен пресет k50, дающий максимально прямолинейные, логичные и строгие ответы, в то время как альтернативные варианты (например, nucleus sampling) заставляют нейросеть отвечать более креативно и непредсказуемо.

На текущий момент авторизоваться в системе можно с помощью аккаунта в Discord или через электронную почту. Блогер честно предупредил о временной технической проблеме: из-за досадной опечатки в исходном адресе отправки письма со ссылками для подтверждения email могут ошибочно определяться почтовыми сервисами как спам. Команда уже занимается исправлением этой ошибки, но пока рекомендует использовать Discord.

В качестве примера работы ИИ Янник Кильхер продемонстрировал реальный скриншот переписки из сообщества. Пользователь попросил чат-бота дать «самый худший совет о том, как назвать новую собаку». Ответ нейросети оказался удивительно ироничным:

ИИ порекомендовал дать собаке кличку fido.axe. Свое решение алгоритм мотивировал тем, что использование компьютерного расширения файла в имени домашнего животного вызовет жесткую путаницу с файлами на ПК, а также создаст критические риски информационной безопасности, ведь хакеры смогут маскировать вредоносные программы под имя питомца.

Подобный уровень контекстуального юмора подчеркивает качество собранных данных. По мнению Янника Кильхера, живые человеческие датасеты на порядки превосходят любые синтетические базы данных или методы самообучения моделей (self-instruct) вроде Alpaca или Vicuna. Человеческая фантазия и изобретательность незаменимы. Более того, автор считает, что датасет OpenAssistant имеет все шансы превзойти по качеству закрытые данные компании OpenAI. Коммерческие гиганты вынуждены платить наемным краудсорсерам за монотонную разметку, в то время как волонтерами OpenAssistant движет искренняя увлеченность, любовь к технологиям и внутренняя решимость, что всегда гарантирует лучший результат.

🔌 Веб-поиск и экосистема плагинов 9:43

Развитие платформы не останавливается на базовом текстовом чате. Участник Discord-сообщества под ником Dragon уже продемонстрировал работающий прототип интеграции плагинов для OpenAssistant. В качестве демонстрации был показан запрос: «Когда родился Джо Байден?». Система автоматически распознала потребность в актуальной информации, активировала плагин веб-поиска Google, отправила поисковый запрос, проанализировала полученную выдачу и выдала пользователю итоговый точный ответ в диалоговой форме.

Нейросеть самостоятельно принимает решение о необходимости использования внешнего инструмента, сама формирует поисковую фразу и определяет, как именно интерпретировать результаты. Архитектура плагинов полностью идентична подходу OpenAI: разработчику стороннего сервиса достаточно предоставить ссылку на JSON-файл со спецификацией OpenAPI, чтобы модель поняла, как взаимодействовать со сторонним API.

По словам Янника Кильхера, с появлением более крупных и совершенных моделей эффективность плагинов будет расти по экспоненте. В планах команды — целенаправленное обучение ассистента стратегиям извлечения данных из веб-ресурсов, работе со сложными многошаговыми цепочками инструментов и автоматической обработке возникающих ошибок.

📊 Сравнение с ChatGPT и борьба со спамом 12:15

В опубликованной научной статье разработчики представили результаты масштабного слепого тестирования. Пользователям предлагались ответы модели OpenAssistant (на базе Pythia) и оригинальной ChatGPT на абсолютно новые промты, которые гарантированно отсутствовали в обучающих выборках обеих систем. Результаты оказались сенсационными: предпочтения распределились практически поровну — 48,3% голосов было отдано за OpenAssistant и 51,7% за ChatGPT.

При этом Янник Кильхер объективно признает, что модели OpenAssistant пока уступают коммерческому ИИ от OpenAI в решении задач программирования. Это объясняется тем, что базовая модель Pythia содержала существенно меньше исходного кода в процессе предварительного обучения, да и физический размер волонтерской нейросети значительно меньше. Тем не менее, по мнению блогера, во многих повседневных текстовых задачах ответы OpenAssistant кажутся более живыми, человечными, лаконичными и интересными, выгодно отличаясь от рафинированных и скучных ответов коммерческих систем.

Внутренний опрос контрибьюторов показал, что волонтеры высоко оценивают качество проверяемых данных и получают искреннее удовольствие от процесса, ведь для многих это стал первый масштабный open-source проект в жизни. Для защиты обучающей выборки от вредоносного контента разработчики создали гибридную систему фильтрации спама, которая сочетает элементы автоматического краудсорсинга и ручной модерации. Математический анализ данных подтвердил высочайшую эффективность этой системы: она позволяет качественно отсеивать неприемлемый контент, не перегружая при этом волонтеров-модераторов.

🤝 Вклад ИТ-индустрии и ключевые лица проекта 15:42

Создание сложнейшей ИИ-системы с нуля потребовало колоссальных организационных и инфраструктурных усилий. Около 250 независимых разработчиков внесли свой вклад непосредственно в репозиторий проекта на GitHub, сформировав мощный костяк из наиболее активных пользователей.

Огромную роль в успехе сыграла безвозмездная помощь со стороны технологических компаний и исследовательских организаций:

Янник Кильхер выразил особую благодарность инженеру Оливье (Olivier) из Hugging Face за ежедневную техническую помощь в реализации механизмов текстового сэмплинга. Блогер с гордостью упомянул, что функция потоковой передачи данных (streaming), которую он сам изначально «на коленке» внедрил в демонстрационный сервер, была подхвачена Оливье, значительно улучшена и теперь официально интегрирована в основную библиотеку Hugging Face Transformers.

Отдельно была отмечена деятельность активиста Карлоса (Carlos), который проделал титаническую работу по популяризации и продвижению OpenAssistant среди испаноязычного ИТ-сообщества.

Тем не менее главным драйвером и сердцем проекта Янник Кильхер назвал инженера Андреаса Куппа (Andreas Kupp). Блогер подчеркнул, что хотя слава первопроходцев часто достается ему самому или организации LAION, именно Андреас работал днями и ночами напролет все эти месяцы. Он лично написал огромные массивы кода, координировал разрозненные группы волонтеров в разных часовых поясах, организовывал инфраструктуру и решал сложнейшие логистические задачи. В завершение видео Кильхер призвал зрителей устроить Андреасу заслуженные «всемирные виртуальные аплодисменты».

💬 Цитаты

«Наши люди обладают силой любви и решимости, а это всегда побеждает.»

Янник Кильхер 09:30

«Появление OpenAssistant — это абсолютный геймчейнджер для бизнеса и для всех, кто хочет работать в open source.»

Янник Кильхер 04:32
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Dataset (Датасет)
Набор структурированных данных, используемый для обучения моделей машинного обучения.
Inference (Инференс)
Процесс работы обученной нейросети по выполнению своей задачи (например, генерация текста в ответ на запрос).
Nucleus sampling
Метод вероятностного выбора слов при генерации текста ИИ, повышающий креативность и вариативность ответов.
OpenAPI specification
Стандарт описания интерфейсов программирования приложений (API), позволяющий программам автоматически взаимодействовать друг с другом.
📊 Цифры
🗓 Хронология
  1. декабрь 2022 года Старт разработки краудсорсинговой платформы для сбора диалоговых данных перед Рождеством.
  2. май 2023 года Официальный публичный релиз исходного кода, весов моделей и датасета OpenAssistant.
⚖️ Другая сторона
Искусственный интеллект OpenAssistant Yannic Kilcher Hugging Face LAION открытый исходный код