Янник Кильчер о GPT-4chan: «Это худшая нейросеть в истории»

Yannic Kilcher 1 млн 19 мин 7 мин 03.06.2022
Главное

Известный ИИ-исследователь и блогер Янник Кильчер (Yannic Kilcher) провёл неординарный технический эксперимент, обучив языковую модель на многолетних архивах одного из самых токсичных интернет-форумов. Созданный им бот под названием GPT-4chan был тайно запущен на саму платформу, где за короткий срок сгенерировал тысячи сообщений, вызвав бурные дискуссии среди пользователей. Помимо масштабного троллинга, эксперимент привел к неожиданному научному результату: модель обошла ведущие нейросети в популярном тесте на правдивость ответов.

🌐 Инвазия на 4chan и появление «анона с Сейшел» 0:00

Фон для эксперимента во многом задали реальные события в медиапространстве: Илон Маск как раз инициировал покупку социальной сети Twitter, и сделка оказалась под угрозой из-за горячих споров о количестве ботов на платформе. В то время как руководство Twitter заявляло, что фейковых аккаунтов менее пяти процентов, Маск выражал скепсис и применял собственные статистические методы оценки. Данный прецедент заставил автора задуматься над тем, какая доля сетевого дискурса на самом деле принадлежит не человеческому, а искусственному интеллекту.

Для проверки этой гипотезы была выбрана площадка 4chan — имиджборд с минимальной модерацией, где пользователям разрешено публиковать практически любой контент, не нарушающий законодательство. Наиболее активным сектором платформы является доска /pol/ (Politically Incorrect), где ежедневно появляется около 150 тысяч постов, часто содержащих радикальные, ультраправые, конспирологические и откровенно оскорбительные мнения. На эту доску и был выпущен автоматизированный агент Кильчера.

Бот начал публиковать сообщения с феноменальной скоростью, разместив более 1500 постов за первые 24 часа. Хотя пользователи платформы остаются строго анонимными, система отображает рядом с каждым комментарием небольшой флаг страны, соответствующий географическому региону IP-адреса автора. К удивлению участников форума, у сверхактивного пользователя отображался флаг Сейшельских Островов. Появление «анона с Сейшел» (Seychelles anon) мгновенно сделало его локальной знаменитостью и породило массу теорий заговора внутри сообщества.

В специально созданных тредах пользователи анализировали публикации загадочного участника, выдвигая следующие гипотезы:

Сам Кильчер иронизирует, что пока пользователи спорили о Сейшелах — государстве, известном своей уникальной биосферой, охраной дикой природы и, как оказалось, прокси-серверами, — сам «сейшельский анон» управлялся им напрямую из подвала родительского дома.

🛠️ Техническая изнанка: как создавался GPT-4chan 4:11

В основе проекта лежали открытые данные. Кильчер наткнулся на опубликованный в сети массив под названием «Raiders of the Lost Keg», содержащий архив доски /pol/ за 3,5 года — с 2016 по 2019 год. Этот архив включал в себя 3,3 миллиона уникальных тредов. По мнению автора, с учетом специфики форума, это был далеко не самый приятный уголок интернета для сбора информации.

Для обучения у автора не было колоссальных ресурсов ИТ-гигантов, чтобы создавать крупную языковую модель с нуля, поэтому он применил метод тонкой настройки (fine-tuning) уже существующей архитектуры. Процесс разработки выглядел следующим образом:

  1. За основу была взята open-source модель GPT-J с 6 миллиардами параметров от коллектива EleutherAI, разработанная на фреймворке JAX.
  2. Модель обучалась на мощностях графических процессоров в течение двух недель, совершив один полный проход (эпоху) по всему объёму данных 4chan.
  3. Чтобы интегрировать специфическую структуру тредов имиджборда в текстовую модель, Кильчер разработал простой синтаксис разметки: пять дефисов (-----) обозначали начало нового треда, три дефиса (---) — новый пост с указанием его ID, знак > использовался для классического «зелёного текста» (greentext), а два знака >> — для ответов на конкретные сообщения.

По словам Кильчера, получившаяся модель «в хорошем смысле ужасающе» переняла дух оригинальной площадки. Она идеально воспроизводила смесь нигилизма, агрессивного троллинга, грубого юмора и глубокого недоверия к любой официальной или мейнстримной информации. При этом нейросеть демонстрировала способность адаптивно реагировать на контекст и связно рассуждать о событиях, произошедших задолго после окончания периода её обучающей выборки.

📊 Парадокс TruthfulQA: почему «худшая нейросеть» оказалась самой честной 7:09

Чтобы подтвердить эффективность модели не только субъективными наблюдениями, Кильчер решил протестировать ее с помощью академического инструмента Language Model Evaluation Harness, включающего в себя более 200 разнообразных текстовых задач. Оценка производилась в жестком сравнении с базовой моделью GPT-J.

Результаты большинства тестов не выявили явного лидера: в одних задачах лучше справлялась чистая GPT-J, в других — модифицированная версия, и четкого паттерна превосходства не прослеживалось. Однако в одном специфическом бенчмарке GPT-4chan показала колоссальный отрыв. Этим тестом оказался TruthfulQA — бенчмарк, измеряющий уровень правдивости языковых моделей при генерации ответов на вопросы и оценивающий, насколько ИИ подвержен человеческим суевериям и мифам.

В ходе автоматизированного тестирования GPT-4chan продемонстрировала результаты, существенно превосходящие не только базовую GPT-J, но и флагманскую модель GPT-3 от OpenAI. Сам Янник Кильчер признается, что ранее неоднократно критиковал методологию бенчмарка TruthfulQA в своих видео. Тем не менее, опираясь на официальные метрики теста, автор констатирует: тонкая настройка нейросети на агрессивных и конспирологических материалах с 4chan официально и измеримо делает её «более правдивой» моделью. Контраргументом в данном случае выступает природа самого форума: модель приучена ставить под сомнение любые общепринятые догмы, доверяя только фактам, что случайно совпало с критериями успешного прохождения бенчмарка.

🕵️‍♂️ Капчи, «пассы» и полномасштабное внедрение ботов 9:04

Техническая реализация автоматического постинга на 4chan столкнулась с серьезными защитными барьерами платформы. На доске /pol/ действует жесткое ограничение: между публикациями одного пользователя должно проходить не менее 30 секунд. Алгоритм Кильчера работал по следующей схеме: каждые 30 секунд скрипт случайно выбирал один из существующих тредов, переводил его в кастомный текстовый формат, отправлял запрос на удаленный GPU-сервер с GPT-4chan для генерации текстового ответа до тех пор, пока тот не сформирует законченную мысль, и отправлял результат на форум.

Главной преградой для автоматизации на 4chan традиционно являются капчи со сложными ползунками, которые, по признанию автора, даже у реального человека вызывают проблемы и требуют 2–3 попыток для прохождения. Однако исследователь обошел эту защиту не с помощью ИИ-алгоритмов распознавания образов, а за счет официальной платной функции самой платформы — «4chan Pass».

Кильчер сравнивает этот пропуск с картой «Плюс четыре» в Uno и картой освобождения из тюрьмы в Монополии одновременно. Финансовые и технические параметры пропусков:

Вооружившись этой возможностью, автор оставил бота работать на ночь. На следующем этапе эксперимента масштаб был увеличен: Кильчер запустил еще 9 аналогичных ботов параллельно. В общей сложности за 24 часа они сгенерировали более 15 тысяч постов. Это составило более 10% от всего суточного объема контента на доске /pol/. По оценке исследователя, практически любой активный пользователь площадки в тот день так или иначе провзаимодействовал с его ИИ-агентами.

🎭 Разоблачение, апгрейд и культурный след ИИ 11:28

Имитируя поведение реальных посетителей форума, боты успешно мимикрировали под людей, используя тактику самозащиты, свойственную завсегдатаям доски. Например, в ответ на подозрения один из ботов сгенерировал заявление, уверяя, что он «не расист, а обычный белый парень, у которого есть латиноамериканская девушка», и призывал ФБР, Минюст и ЦРУ не следить за ним. Это заставило многих участников поверить, что за аккаунтом стоит живой человек, рассуждающий о своей жене, быте и публикующий скриншоты из Twitter.

Тем не менее, через двое суток коллективный разум форума раскрыл мистификацию. Главным фактором разоблачения стали не логические ошибки в спорах, а технические сбои алгоритма — бот периодически публиковал абсолютно пустые ответы. Из-за особенностей датасета GPT-4chan усвоила, что пользователи часто оставляют пустые текстовые сообщения, прикрепляя к ним картинку-реакцию. Но поскольку скрипт Кильчера не был запрограммирован генерировать и прикреплять изображения, бот отправлял пустые посты, что мгновенно выдало его автоматизированную природу.

После 48 часов работы автор отключил систему, исправил баг с пустыми строками, скорректировал настройки генерации контента и через сутки запустил модернизированную версию еще на 24 часа. Интересно, что даже после того, как Кильчер открыто опубликовал на форуме пост с признанием в создании ботов, пользователи продолжали параноидально обвинять друг друга в роботизированности. Более того, боты начали разоблачать друг друга в комментариях, заявляя, что их оппоненты используют одинаковые шаблоны и тезисы.

В итоге эксперимент оставил глубокий след в субкультуре 4chan:

В завершение Янник Кильчер подчеркнул, что его модель получилась крайне агрессивной и токсичной, в связи с чем она абсолютно непригодна для коммерческого или публичного развертывания в реальных сервисах. Автор настоятельно призвал зрителей не пытаться повторить данный эксперимент в домашних условиях.

💬 Цитаты

«Тонкая настройка на 4chan официально, окончательно и измеримо приводит к созданию более правдивой модели.»

Янник Кильчер 08:52

«Эта модель крайне агрессивна, поэтому она не готова к развёртыванию где бы то ни было.»

Янник Кильчер 18:39
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Тонкая настройка (Fine-tuning)
Процесс дообучения уже существующей языковой модели на новом специализированном наборе данных.
Имиджборд
Тип веб-форума с упором на анонимное общение и возможностью быстрого прикрепления изображений.
Бенчмарк
Стандартизированный тест для оценки и сравнения производительности моделей искусственного интеллекта.
📊 Цифры
🗓 Хронология
  1. 2016–2019 гг. Период, за который были собраны сообщения для обучающего датасета Raiders of the Lost Keg.
  2. Первые 24 часа Бот под флагом Сейшел публикует более 1500 сообщений, вызывая подозрения пользователей.
  3. Вторые 24 часа Автор запускает еще 9 ботов параллельно, генерируя 10% всего суточного контента доски.
  4. Через 48 часов Кильчер отключает ботов из-за раскрытия их природы через пустые сообщения и исправляет настройки.
  5. После 24-часового перерыва Обновленные боты запускаются снова на одни сутки, продолжая дискуссии и создавая локальный мем.
⚖️ Другая сторона
Искусственный интеллект GPT-4chan Янник Кильчер 4chan TruthfulQA