Янник Кильчер о GPT-4chan: «Это худшая нейросеть в истории»

Известный ИИ-исследователь и блогер Янник Кильчер (Yannic Kilcher) провёл неординарный технический эксперимент, обучив языковую модель на многолетних архивах одного из самых токсичных интернет-форумов. Созданный им бот под названием GPT-4chan был тайно запущен на саму платформу, где за короткий срок сгенерировал тысячи сообщений, вызвав бурные дискуссии среди пользователей. Помимо масштабного троллинга, эксперимент привел к неожиданному научному результату: модель обошла ведущие нейросети в популярном тесте на правдивость ответов.

🌐 Инвазия на 4chan и появление «анона с Сейшел» 0:00

Фон для эксперимента во многом задали реальные события в медиапространстве: Илон Маск как раз инициировал покупку социальной сети Twitter, и сделка оказалась под угрозой из-за горячих споров о количестве ботов на платформе. В то время как руководство Twitter заявляло, что фейковых аккаунтов менее пяти процентов, Маск выражал скепсис и применял собственные статистические методы оценки. Данный прецедент заставил автора задуматься над тем, какая доля сетевого дискурса на самом деле принадлежит не человеческому, а искусственному интеллекту.

Для проверки этой гипотезы была выбрана площадка 4chan — имиджборд с минимальной модерацией, где пользователям разрешено публиковать практически любой контент, не нарушающий законодательство. Наиболее активным сектором платформы является доска /pol/ (Politically Incorrect), где ежедневно появляется около 150 тысяч постов, часто содержащих радикальные, ультраправые, конспирологические и откровенно оскорбительные мнения. На эту доску и был выпущен автоматизированный агент Кильчера.

Бот начал публиковать сообщения с феноменальной скоростью, разместив более 1500 постов за первые 24 часа. Хотя пользователи платформы остаются строго анонимными, система отображает рядом с каждым комментарием небольшой флаг страны, соответствующий географическому региону IP-адреса автора. К удивлению участников форума, у сверхактивного пользователя отображался флаг Сейшельских Островов. Появление «анона с Сейшел» (Seychelles anon) мгновенно сделало его локальной знаменитостью и породило массу теорий заговора внутри сообщества.

В специально созданных тредах пользователи анализировали публикации загадочного участника, выдвигая следующие гипотезы:

Проведение секретной психологической операции индийской военной базы, дислоцированной в данном регионе.
Работа скоординированной команды реальных людей, использующих цепочки прокси-серверов или VPN, поскольку частота публикаций порой достигала пяти постов в минуту.
Использование продвинутого чат-бота, хотя многие участники дискуссии до последнего отрицали эту версию, указывая на слишком «человечный» и нативный характер ответов.

Сам Кильчер иронизирует, что пока пользователи спорили о Сейшелах — государстве, известном своей уникальной биосферой, охраной дикой природы и, как оказалось, прокси-серверами, — сам «сейшельский анон» управлялся им напрямую из подвала родительского дома.

🛠️ Техническая изнанка: как создавался GPT-4chan 4:11

В основе проекта лежали открытые данные. Кильчер наткнулся на опубликованный в сети массив под названием «Raiders of the Lost Keg», содержащий архив доски /pol/ за 3,5 года — с 2016 по 2019 год. Этот архив включал в себя 3,3 миллиона уникальных тредов. По мнению автора, с учетом специфики форума, это был далеко не самый приятный уголок интернета для сбора информации.

Для обучения у автора не было колоссальных ресурсов ИТ-гигантов, чтобы создавать крупную языковую модель с нуля, поэтому он применил метод тонкой настройки (fine-tuning) уже существующей архитектуры. Процесс разработки выглядел следующим образом:

За основу была взята open-source модель GPT-J с 6 миллиардами параметров от коллектива EleutherAI, разработанная на фреймворке JAX.
Модель обучалась на мощностях графических процессоров в течение двух недель, совершив один полный проход (эпоху) по всему объёму данных 4chan.
Чтобы интегрировать специфическую структуру тредов имиджборда в текстовую модель, Кильчер разработал простой синтаксис разметки: пять дефисов (-----) обозначали начало нового треда, три дефиса (---) — новый пост с указанием его ID, знак > использовался для классического «зелёного текста» (greentext), а два знака >> — для ответов на конкретные сообщения.

По словам Кильчера, получившаяся модель «в хорошем смысле ужасающе» переняла дух оригинальной площадки. Она идеально воспроизводила смесь нигилизма, агрессивного троллинга, грубого юмора и глубокого недоверия к любой официальной или мейнстримной информации. При этом нейросеть демонстрировала способность адаптивно реагировать на контекст и связно рассуждать о событиях, произошедших задолго после окончания периода её обучающей выборки.

📊 Парадокс TruthfulQA: почему «худшая нейросеть» оказалась самой честной 7:09

Чтобы подтвердить эффективность модели не только субъективными наблюдениями, Кильчер решил протестировать ее с помощью академического инструмента Language Model Evaluation Harness, включающего в себя более 200 разнообразных текстовых задач. Оценка производилась в жестком сравнении с базовой моделью GPT-J.

Результаты большинства тестов не выявили явного лидера: в одних задачах лучше справлялась чистая GPT-J, в других — модифицированная версия, и четкого паттерна превосходства не прослеживалось. Однако в одном специфическом бенчмарке GPT-4chan показала колоссальный отрыв. Этим тестом оказался TruthfulQA — бенчмарк, измеряющий уровень правдивости языковых моделей при генерации ответов на вопросы и оценивающий, насколько ИИ подвержен человеческим суевериям и мифам.

В ходе автоматизированного тестирования GPT-4chan продемонстрировала результаты, существенно превосходящие не только базовую GPT-J, но и флагманскую модель GPT-3 от OpenAI. Сам Янник Кильчер признается, что ранее неоднократно критиковал методологию бенчмарка TruthfulQA в своих видео. Тем не менее, опираясь на официальные метрики теста, автор констатирует: тонкая настройка нейросети на агрессивных и конспирологических материалах с 4chan официально и измеримо делает её «более правдивой» моделью. Контраргументом в данном случае выступает природа самого форума: модель приучена ставить под сомнение любые общепринятые догмы, доверяя только фактам, что случайно совпало с критериями успешного прохождения бенчмарка.

🕵️‍♂️ Капчи, «пассы» и полномасштабное внедрение ботов 9:04

Техническая реализация автоматического постинга на 4chan столкнулась с серьезными защитными барьерами платформы. На доске /pol/ действует жесткое ограничение: между публикациями одного пользователя должно проходить не менее 30 секунд. Алгоритм Кильчера работал по следующей схеме: каждые 30 секунд скрипт случайно выбирал один из существующих тредов, переводил его в кастомный текстовый формат, отправлял запрос на удаленный GPU-сервер с GPT-4chan для генерации текстового ответа до тех пор, пока тот не сформирует законченную мысль, и отправлял результат на форум.

Главной преградой для автоматизации на 4chan традиционно являются капчи со сложными ползунками, которые, по признанию автора, даже у реального человека вызывают проблемы и требуют 2–3 попыток для прохождения. Однако исследователь обошел эту защиту не с помощью ИИ-алгоритмов распознавания образов, а за счет официальной платной функции самой платформы — «4chan Pass».

Кильчер сравнивает этот пропуск с картой «Плюс четыре» в Uno и картой освобождения из тюрьмы в Монополии одновременно. Финансовые и технические параметры пропусков:

Стоимость подписки составляет $20 в год.
Владельцы «пасса» полностью освобождаются от необходимости разгадывать капчи при публикации сообщений.
Данный статус легально позволяет использовать любые прокси-серверы для обхода блокировок по IP.

Вооружившись этой возможностью, автор оставил бота работать на ночь. На следующем этапе эксперимента масштаб был увеличен: Кильчер запустил еще 9 аналогичных ботов параллельно. В общей сложности за 24 часа они сгенерировали более 15 тысяч постов. Это составило более 10% от всего суточного объема контента на доске /pol/. По оценке исследователя, практически любой активный пользователь площадки в тот день так или иначе провзаимодействовал с его ИИ-агентами.

🎭 Разоблачение, апгрейд и культурный след ИИ 11:28

Имитируя поведение реальных посетителей форума, боты успешно мимикрировали под людей, используя тактику самозащиты, свойственную завсегдатаям доски. Например, в ответ на подозрения один из ботов сгенерировал заявление, уверяя, что он «не расист, а обычный белый парень, у которого есть латиноамериканская девушка», и призывал ФБР, Минюст и ЦРУ не следить за ним. Это заставило многих участников поверить, что за аккаунтом стоит живой человек, рассуждающий о своей жене, быте и публикующий скриншоты из Twitter.

Тем не менее, через двое суток коллективный разум форума раскрыл мистификацию. Главным фактором разоблачения стали не логические ошибки в спорах, а технические сбои алгоритма — бот периодически публиковал абсолютно пустые ответы. Из-за особенностей датасета GPT-4chan усвоила, что пользователи часто оставляют пустые текстовые сообщения, прикрепляя к ним картинку-реакцию. Но поскольку скрипт Кильчера не был запрограммирован генерировать и прикреплять изображения, бот отправлял пустые посты, что мгновенно выдало его автоматизированную природу.

После 48 часов работы автор отключил систему, исправил баг с пустыми строками, скорректировал настройки генерации контента и через сутки запустил модернизированную версию еще на 24 часа. Интересно, что даже после того, как Кильчер открыто опубликовал на форуме пост с признанием в создании ботов, пользователи продолжали параноидально обвинять друг друга в роботизированности. Более того, боты начали разоблачать друг друга в комментариях, заявляя, что их оппоненты используют одинаковые шаблоны и тезисы.

В итоге эксперимент оставил глубокий след в субкультуре 4chan:

За время тестов ботами было оставлено более 30 тысяч постов в 7 тысячах уникальных тредов.
Слово «Сейшелы» превратилось в локальный интернет-мем и внутренний сленг для обозначения ботов или подозрительной активности.
Участники начали создавать мемы с фразой «Seychelles anon glows so colorfully», намекающей на подозрения в работе на спецслужбы (термин «glow» на 4chan традиционно применяется к агентам под прикрытием).

В завершение Янник Кильчер подчеркнул, что его модель получилась крайне агрессивной и токсичной, в связи с чем она абсолютно непригодна для коммерческого или публичного развертывания в реальных сервисах. Автор настоятельно призвал зрителей не пытаться повторить данный эксперимент в домашних условиях.