Янник Кильхер: «Мы устроили революцию в open-source и выполнили миссию»

Известный ИИ-исследователь и блогер Янник Кильхер (Yannic Kilcher) объявил об официальном завершении краудсорсингового проекта OpenAssistant, запущенного десять месяцев назад. Инициатива, создававшаяся как открытая альтернатива коммерческой системе ChatGPT, прекращает свою активную работу в связи с полным выполнением поставленных задач. По мнению создателей, собранный массив данных навсегда изменил ландшафт ИИ с открытым исходным кодом, сделав дальнейшее искусственное поддержание сложной инфраструктуры волонтерами нецелесообразным.

🏁 Миссия выполнена: почему закрывается OpenAssistant 0:00

В своем новом видео Янник Кильхер подвел итоги десятимесячной работы амбициозного проекта OpenAssistant. Главная новость, способная расстроить часть сообщества, заключается в полной остановке разработки. Создатели приняли осознанное решение подвести черту под проектом и объявить о завершении миссии, так как все базовые цели были достигнуты. По мнению Кильхера, это необходимый шаг, чтобы не превращать OpenAssistant в «проект-зомби», который бесконечно волочит свое существование исключительно за счет былой славы бренда. Ведущий признает, что многие участники хотели видеть в проекте прямую открытую альтернативу компании OpenAI, однако команда считает текущую точку идеальной для красивого финала. Теперь, по мнению создателей, настало время для других разработчиков продолжить это глобальное движение.

🛠 От пустоты к революции: наследие проекта 1:21

Янник Кильхер напомнил, в каких тяжелых условиях запускался OpenAssistant: на тот момент в индустрии существовал лишь закрытый ChatGPT и теоретическая научная статья от OpenAI, описывающая возможные принципы его создания. В открытом доступе практически полностью отсутствовали необходимые данные, не было обученных моделей, понимания методик их эффективной тренировки и готовой инфраструктуры. OpenAssistant фактически проложил путь для всего ИИ-сообщества, создав с нуля платформу для массового сбора инструкций.

Главной гордостью команды стал сбор, как утверждает Кильхер, самого этичного датасета на планете, где каждая строчка данных была внесена пользователями абсолютно осознанно и с их полного согласия. В рамках проекта велись активные эксперименты с обучением с подкреплением (RL), тонкой настройкой (SFT) и интеграцией синтетических данных. Хотя сторонние разработчики со временем создали более масштабные модели и привлекательные интерфейсы, уникальная ценность OpenAssistant, по мнению автора, заключалась именно в фиксации пикового импульса человеческого энтузиазма, который не был растрачен впустую.

🛑 Усталость команды и технические кошмары поддержки 3:35

Поддержание работы столь масштабного ИИ-сервиса требует колоссальных организационных усилий. Янник Кильхер выразил глубокую признательность волонтерам-модераторам, которые вручную обрабатывали жалобы пользователей и анализировали кластеры негативных оценок. Однако человеческий ресурс ограничен: со временем первоначальный запал угасает, программисты и модераторы переключаются на другие жизненные задачи. На данный момент команда проекта признает себя полностью перегруженной. При этом Кильхер замечает, что многочисленные критики, недовольные скоростью обновлений платформы, сами не обладают мощностями для включения в реальную работу.

Дополнительным фактором закрытия стал технический аспект: поддержка распределенных систем сбора данных и пользовательских чатов оказалась настоящим «кошмаром» для волонтеров. Проект регулярно сталкивался со следующими инфраструктурными трудностями:

Постоянные сбои физического серверного оборудования и отказы фоновых GPU-воркеров.
Масштабированные атаки ботов, спам и намеренные злоупотребления интерфейсом.
Регулярные переполнения баз данных Redis и критическая необходимость ручного создания бэкапов.

Поскольку работа интерфейса частично спонсировалась компаниями, а частично оплачивалась контрибьюторами из личного кармана, тратить ресурсы на поддержание дублирующей инфраструктуры стало бессмысленно. Желающие протестировать модели OpenAssistant могут легко сделать это на сторонних платформах, таких как Hugging Chat.

🌍 Новый ландшафт open-source и будущее данных 8:39

Оглядываясь назад, создатели уверены, что смогли запустить настоящую революцию в мире открытых ИИ-моделей. Высокое качество собранных данных уже получило официальные подтверждения от ряда крупных институтов, а итоговая научная статья OpenAssistant была принята на престижную конференцию NeurIPS в секцию датасетов и бенчмарков. Участники сообщества, сделавшие свой вклад, могут зайти в личный кабинет на сайте проекта, чтобы подтвердить согласие на упоминание своего имени в финальных материалах публикации.

Янник Кильхер подчеркивает, что ситуация на рынке кардинально изменилась: если раньше open-source развивали энтузиасты-одиночки, то сегодня в эту сферу зашли ИТ-гиганты вроде корпорации Meta и целые государственные университеты арабского мира. Соревноваться с ними в обучении тяжелых моделей силами волонтеров, по мнению блогера, теперь попросту нелепо.

В ближайшее время команда опубликует все накопленные данные чатов с аннотациями после их финальной очистки, а лучшие контрибьюторы из таблицы лидеров получат памятные подарки. В качестве перспективных направлений для дальнейшей работы Кильхер рекомендует обратить внимание на проект Open Empathic от организации LAION, посвященный сбору данных для эмпатичных диалогов. Для детального обсуждения закрытия со своими подписчиками Янник планирует провести открытую Q&A-сессию (AMA) на своем YouTube-канале уже на следующей неделе.