Профессор права Криста Лазер: «Пиратство данных для ИИ — это не всегда Fair Use»

Использование защищенных авторским правом данных для обучения искусственного интеллекта стало одной из самых горячих юридических тем последних лет. Ведущий канала Уэс Рот и профессор права Криста Лазер (Cleveland State University) обсуждают, почему технологические гиганты признаются в использовании пиратских библиотек, как суды интерпретируют концепцию «добросовестного использования» (fair use) и могут ли многомиллиардные штрафы стать экзистенциальной угрозой для таких компаний, как Anthropic и Meta.

⚖️ Фундамент спора: Добросовестное использование (Fair Use) 0:00

Большинство современных моделей ИИ обучаются на данных, защищенных авторским правом, включая книги, учебники и произведения искусства . По словам профессора Кристы Лазер, это происходит потому, что именно такие материалы содержат творческую выразительность, необходимую для генерации качественных и интересных ответов . Однако сам факт использования защищенных данных не всегда означает нарушение закона — ключевым вопросом здесь является доктрина «добросовестного использования» (fair use).

Криста Лазер выделяет четыре ключевых фактора, которые суды используют для анализа Fair Use:

Цель и характер использования. Суд определяет, является ли использование коммерческим или образовательным, а также насколько оно «трансформативно» .
Природа защищенного произведения. Креативные работы (романы) защищаются сильнее, чем фактологические справочники. В делах против ИИ этот фактор обычно играет против разработчиков .
Объем и существенность использованной части. Для обучения ИИ обычно поглощается произведение целиком, что в классических случаях (например, цитирование видео) могло бы считаться нарушением .
Влияние на рынок. Снижает ли использование ИИ ценность оригинала и создает ли оно прямую конкуренцию автору .

Профессор отмечает, что в контексте ИИ суды часто признают обучение «трансформативным» процессом, так как модель создает принципиально новый опыт, отличный от простого чтения книги . Даже поглощение книги целиком может быть оправдано, так как для обучения качественной модели необходим полный контекст миллионов произведений .

🏴‍☠️ Пиратство как «плод отравленного дерева» 1:31

Одной из самых спорных тем является способ получения данных. Некоторые компании покупают лицензии или физические копии книг, но многие использовали торрент-сайты и пиратские библиотеки . В юридическом сообществе нет единого мнения о том, делает ли незаконный способ получения данных само обучение незаконным.

Криста Лазер описывает два противоположных судебных подхода:

Позиция суда по делу Meta: Судья счел, что если конечное использование (обучение ИИ) является «добросовестным», то не имеет значения, были ли исходные данные получены из пиратских источников .
Позиция суда по делу Barts против Anthropic: Суд разделил процесс на два этапа. Само пиратство (скачивание торрентов) признано незаконным актом, за который компания должна нести ответственность, независимо от того, насколько полезным оказался результат .

Лазер критикует подход судьи в деле Meta, считая его необоснованным . По её мнению, если разрешить пиратство при условии будущего «трансформативного использования», то любой пользователь сможет безнаказанно скачивать сериалы (например, Star Trek), заявляя, что делает это для обучения своего персонального ИИ-помощника . Она проводит аналогию с Робин Гудом: «Я могу украсть это, пока я это раздаю» .

📉 Теория «размывания рынка» в деле Meta 8:14

В деле против компании Meta (ныне признана экстремистской в РФ) суд выдвинул новую юридическую теорию — теорию «рыночного размывания» (market dilution theory) . По словам Кристы Лазер, суд предположил, что обучение ИИ может не быть «добросовестным использованием», если оно приводит к наводнению рынка ИИ-контентом, который вытесняет оригиналы .

Особенности этой теории:

Это отход от традиционного понимания, где оценивается прямая конкуренция идентичных работ .
Истцы в деле Meta не смогли предоставить доказательств в поддержку этой теории, так как она была сформулирована судом фактически в момент вынесения решения .
Уэс Рот сравнивает это с попыткой регулирования «невидимой руки рынка» .

🧠 ИИ против человека: В чём разница в процессе обучения? 10:40

Важным аргументом разработчиков ИИ является аналогия с человеческим мозгом: люди тоже читают книги, учатся на них и создают новое, не платя авторам за «обучение». Однако Лазер указывает на критическое юридическое различие: человек не создает цифровую копию произведения внутри своей головы в процессе чтения .

Профессор делится личной историей о своей матери, обладавшей фотографической памятью :

Во время экзамена она дословно воспроизвела текст из учебника по памяти .
Преподаватель обвинил её в плагиате, несмотря на то, что она не пользовалась книгой в момент написания .
Уэс Рот полагает, что даже при использовании памяти это ощущается как «чит», так как целью экзамена является синтез знаний, а не механическое воспроизведение .

В случае с ИИ компании часто признают наличие «библиотек» — серверов, где хранятся полные копии данных для обучения . В то же время Google, по словам ведущего, защищается тем, что их поисковые роботы лишь индексируют сеть и создают «математическое представление» страниц, не сохраняя их копии . Лазер считает, что в судах предстоит детальная экспертиза того, как именно происходит токенизация и хранение данных у каждой конкретной компании .

💰 Миллиардные иски и экзистенциальная угроза для индустрии 24:57

Если суды признают компании виновными в нарушении авторских прав (особенно зарегистрированных), последствия могут быть катастрофическими. По закону США, за умышленное нарушение авторских прав на одно произведение может быть назначен штраф до $150 000 .

Масштаб проблемы:

При наличии миллионов нарушенных произведений сумма исков может достигать миллиардов долларов .
Для Anthropic это может стать «экзистенциальной угрозой» .
Однако Криста Лазер полагает, что компании могут выжить за счет страховых выплат или заключения сделок по компенсационным фондам для авторов .

Профессор прогнозирует, что эти дела дойдут до Верховного суда США, а процесс может затянуться на 5–10 лет . За это время компании, скорее всего, изменят свои практики и перейдут на использование только законно полученных данных .