Уилл Армис о «Проекте Панама» и пиратских библиотеках

AI и литература: «Проект Панама» и будущее авторских прав 4:44

В центре недавнего расследования издания The Washington Post оказался амбициозный проект компании Anthropic под названием «Проект Панама». Инициатива, запущенная на рубеже 2023 и 2024 годов, ставила своей целью масштабную оцифровку огромного количества книг для обучения моделей искусственного интеллекта, которые лежат в основе чат-бота Claude. Как утверждает журналист Уилл Армис, этот проект иллюстрирует скрытые методы, используемые технологическими гигантами для получения высококачественных данных, необходимых для создания «общего суперинтеллекта».

Методология: от пиратства к «гидравлическим ножам» 9:42

Согласно судебным документам, процесс накопления данных не всегда был легальным:

«Теневые библиотеки»: И Anthropic, и OpenAI обвиняются в использовании контента из так называемых «теневых библиотек», таких как LibGen. По словам Армиса, это пиратские репозитории, содержащие миллионы оцифрованных книг, происхождение которых уходит корнями в попытки академических кругов обойти цензуру.
«Деструктивное сканирование»: Для «Проекта Панама» Anthropic перешла к физическому уничтожению книг. Чтобы процесс шел быстрее, компания закупала тысячи подержанных книг в гигантских объемах, а затем использовала «гидравлические режущие машины» для удаления переплетов, превращая книги в стопки страниц для автоматического сканирования.

Армис отмечает, что компании Anthropic пришлось нанять Тома Тёрви — эксперта, который ранее руководил знаменитым проектом Google Books, чтобы наладить этот процесс. Однако, в отличие от Google, которая сканировала книги из библиотек бережно, Anthropic пошла по пути экономии времени, что привело к уничтожению физических копий.

Правовые дебаты о «добросовестном использовании» 17:56

Вопрос о том, является ли обучение нейросетей на книгах нарушением авторских прав, остается крайне спорным в юридической среде.

Позиция судов: На данный момент два разных судьи в делах против Anthropic и Meta вынесли вердикты о том, что обучение AI на контенте книг является «преобразующим» (transfomative) и подпадает под понятие «добросовестного использования» (fair use). Судья по делу Anthropic счел, что поскольку чат-бот Claude не выдает книги дословно, он не конкурирует с оригиналом.
Ироничный поворот: Как поясняет Армис, Anthropic все же пришлось пойти на урегулирование спора с авторами, выплатив 1,5 миллиарда долларов. Ирония заключается в том, что претензии касались не тех книг, которые реально использовались в коммерческих моделях, а тех, что были отсканированы «про запас» и так и не пошли в дело.

Теория «Первородного греха» AI 24:46

Ведущий Дэвид Пирс выдвигает гипотезу, что интенсивная общественная и правовая реакция на AI коренится в «первородном грехе» OpenAI. По его мнению, компания начала свою деятельность как академический проект, но при переходе к коммерческой модели не изменила свои методы сбора данных, вынудив конкурентов (Meta, Anthropic) действовать так же агрессивно, чтобы не проиграть «гонку вооружений».

Оба собеседника сошлись во мнении, что в индустрии царит атмосфера «морального парадокса»: многие руководители, включая Марка Цукерберга, искренне верят, что проигрыш в гонке AI — это экзистенциальный риск для человечества. В этой логике любые средства, включая нарушение авторских прав, оправданы «спасением мира».