Янник Кильхер: «Мы устроили революцию в open-source и выполнили миссию»

Yannic Kilcher 39,5 тыс. 11 мин 3 мин 24.10.2023
Главное

Известный ИИ-исследователь и блогер Янник Кильхер (Yannic Kilcher) объявил об официальном завершении краудсорсингового проекта OpenAssistant, запущенного десять месяцев назад. Инициатива, создававшаяся как открытая альтернатива коммерческой системе ChatGPT, прекращает свою активную работу в связи с полным выполнением поставленных задач. По мнению создателей, собранный массив данных навсегда изменил ландшафт ИИ с открытым исходным кодом, сделав дальнейшее искусственное поддержание сложной инфраструктуры волонтерами нецелесообразным.

🏁 Миссия выполнена: почему закрывается OpenAssistant 0:00

В своем новом видео Янник Кильхер подвел итоги десятимесячной работы амбициозного проекта OpenAssistant. Главная новость, способная расстроить часть сообщества, заключается в полной остановке разработки. Создатели приняли осознанное решение подвести черту под проектом и объявить о завершении миссии, так как все базовые цели были достигнуты. По мнению Кильхера, это необходимый шаг, чтобы не превращать OpenAssistant в «проект-зомби», который бесконечно волочит свое существование исключительно за счет былой славы бренда. Ведущий признает, что многие участники хотели видеть в проекте прямую открытую альтернативу компании OpenAI, однако команда считает текущую точку идеальной для красивого финала. Теперь, по мнению создателей, настало время для других разработчиков продолжить это глобальное движение.

🛠 От пустоты к революции: наследие проекта 1:21

Янник Кильхер напомнил, в каких тяжелых условиях запускался OpenAssistant: на тот момент в индустрии существовал лишь закрытый ChatGPT и теоретическая научная статья от OpenAI, описывающая возможные принципы его создания. В открытом доступе практически полностью отсутствовали необходимые данные, не было обученных моделей, понимания методик их эффективной тренировки и готовой инфраструктуры. OpenAssistant фактически проложил путь для всего ИИ-сообщества, создав с нуля платформу для массового сбора инструкций.

Главной гордостью команды стал сбор, как утверждает Кильхер, самого этичного датасета на планете, где каждая строчка данных была внесена пользователями абсолютно осознанно и с их полного согласия. В рамках проекта велись активные эксперименты с обучением с подкреплением (RL), тонкой настройкой (SFT) и интеграцией синтетических данных. Хотя сторонние разработчики со временем создали более масштабные модели и привлекательные интерфейсы, уникальная ценность OpenAssistant, по мнению автора, заключалась именно в фиксации пикового импульса человеческого энтузиазма, который не был растрачен впустую.

🛑 Усталость команды и технические кошмары поддержки 3:35

Поддержание работы столь масштабного ИИ-сервиса требует колоссальных организационных усилий. Янник Кильхер выразил глубокую признательность волонтерам-модераторам, которые вручную обрабатывали жалобы пользователей и анализировали кластеры негативных оценок. Однако человеческий ресурс ограничен: со временем первоначальный запал угасает, программисты и модераторы переключаются на другие жизненные задачи. На данный момент команда проекта признает себя полностью перегруженной. При этом Кильхер замечает, что многочисленные критики, недовольные скоростью обновлений платформы, сами не обладают мощностями для включения в реальную работу.

Дополнительным фактором закрытия стал технический аспект: поддержка распределенных систем сбора данных и пользовательских чатов оказалась настоящим «кошмаром» для волонтеров. Проект регулярно сталкивался со следующими инфраструктурными трудностями:

Поскольку работа интерфейса частично спонсировалась компаниями, а частично оплачивалась контрибьюторами из личного кармана, тратить ресурсы на поддержание дублирующей инфраструктуры стало бессмысленно. Желающие протестировать модели OpenAssistant могут легко сделать это на сторонних платформах, таких как Hugging Chat.

🌍 Новый ландшафт open-source и будущее данных 8:39

Оглядываясь назад, создатели уверены, что смогли запустить настоящую революцию в мире открытых ИИ-моделей. Высокое качество собранных данных уже получило официальные подтверждения от ряда крупных институтов, а итоговая научная статья OpenAssistant была принята на престижную конференцию NeurIPS в секцию датасетов и бенчмарков. Участники сообщества, сделавшие свой вклад, могут зайти в личный кабинет на сайте проекта, чтобы подтвердить согласие на упоминание своего имени в финальных материалах публикации.

Янник Кильхер подчеркивает, что ситуация на рынке кардинально изменилась: если раньше open-source развивали энтузиасты-одиночки, то сегодня в эту сферу зашли ИТ-гиганты вроде корпорации Meta и целые государственные университеты арабского мира. Соревноваться с ними в обучении тяжелых моделей силами волонтеров, по мнению блогера, теперь попросту нелепо.

В ближайшее время команда опубликует все накопленные данные чатов с аннотациями после их финальной очистки, а лучшие контрибьюторы из таблицы лидеров получат памятные подарки. В качестве перспективных направлений для дальнейшей работы Кильхер рекомендует обратить внимание на проект Open Empathic от организации LAION, посвященный сбору данных для эмпатичных диалогов. Для детального обсуждения закрытия со своими подписчиками Янник планирует провести открытую Q&A-сессию (AMA) на своем YouTube-канале уже на следующей неделе.

💬 Цитаты

«Мы собираемся остановить OpenAssistant, мы подводим под ним черту и говорим, что дело сделано.»

Янник Кильхер 0:28

«У нас самый этичный набор данных на планете, где каждая точка была внесена с полного согласия контрибьюторов.»

Янник Кильхер 2:14

«Мы хотели начать революцию. Я думаю, именно это мы и сделали.»

Янник Кильхер 8:39
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
OpenAssistant
Открытый проект по воссозданию архитектуры чат-бота ChatGPT на основе добровольного вклада сообщества.
RL (Reinforcement Learning)
Обучение с подкреплением, метод машинного обучения, используемый для настройки ИИ-моделей под предпочтения человека.
NeurIPS
Одна из самых престижных и крупных международных конференций по искусственному интеллекту и машинному обучению.
SFT (Supervised Fine-Tuning)
Тонкая настройка модели под руководством человека на основе заранее подготовленных примеров диалогов.
Redis
Быстрое хранилище данных в оперативной памяти, часто используемое в качестве кэша или брокера сообщений.
📊 Цифры
🗓 Хронология
  1. 10 месяцев назад Запуск инициативы OpenAssistant для сбора данных и обучения открытого аналога ChatGPT.
  2. Текущий момент Официальное объявление о закрытии проекта и полное отключение веб-интерфейса чата.
  3. Ближайшее время Планируемая публикация очищенных аннотированных данных и рассылка подарков топ-контрибьюторам.
  4. Следующая неделя Запланированная прямая трансляция Янника Кильхера в формате AMA для ответов на вопросы сообщества.
⚖️ Другая сторона
Искусственный интеллект Янник Кильхер OpenAssistant LAION NeurIPS Hugging Chat