Использование защищенных авторским правом данных для обучения искусственного интеллекта стало одной из самых горячих юридических тем последних лет. Ведущий канала Уэс Рот и профессор права Криста Лазер (Cleveland State University) обсуждают, почему технологические гиганты признаются в использовании пиратских библиотек, как суды интерпретируют концепцию «добросовестного использования» (fair use) и могут ли многомиллиардные штрафы стать экзистенциальной угрозой для таких компаний, как Anthropic и Meta.
⚖️ Фундамент спора: Добросовестное использование (Fair Use) 0:00
Большинство современных моделей ИИ обучаются на данных, защищенных авторским правом, включая книги, учебники и произведения искусства . По словам профессора Кристы Лазер, это происходит потому, что именно такие материалы содержат творческую выразительность, необходимую для генерации качественных и интересных ответов . Однако сам факт использования защищенных данных не всегда означает нарушение закона — ключевым вопросом здесь является доктрина «добросовестного использования» (fair use).
Криста Лазер выделяет четыре ключевых фактора, которые суды используют для анализа Fair Use:
- Цель и характер использования. Суд определяет, является ли использование коммерческим или образовательным, а также насколько оно «трансформативно» .
- Природа защищенного произведения. Креативные работы (романы) защищаются сильнее, чем фактологические справочники. В делах против ИИ этот фактор обычно играет против разработчиков .
- Объем и существенность использованной части. Для обучения ИИ обычно поглощается произведение целиком, что в классических случаях (например, цитирование видео) могло бы считаться нарушением .
- Влияние на рынок. Снижает ли использование ИИ ценность оригинала и создает ли оно прямую конкуренцию автору .
Профессор отмечает, что в контексте ИИ суды часто признают обучение «трансформативным» процессом, так как модель создает принципиально новый опыт, отличный от простого чтения книги . Даже поглощение книги целиком может быть оправдано, так как для обучения качественной модели необходим полный контекст миллионов произведений .
🏴☠️ Пиратство как «плод отравленного дерева» 1:31
Одной из самых спорных тем является способ получения данных. Некоторые компании покупают лицензии или физические копии книг, но многие использовали торрент-сайты и пиратские библиотеки . В юридическом сообществе нет единого мнения о том, делает ли незаконный способ получения данных само обучение незаконным.
Криста Лазер описывает два противоположных судебных подхода:
- Позиция суда по делу Meta: Судья счел, что если конечное использование (обучение ИИ) является «добросовестным», то не имеет значения, были ли исходные данные получены из пиратских источников .
- Позиция суда по делу Barts против Anthropic: Суд разделил процесс на два этапа. Само пиратство (скачивание торрентов) признано незаконным актом, за который компания должна нести ответственность, независимо от того, насколько полезным оказался результат .
Лазер критикует подход судьи в деле Meta, считая его необоснованным . По её мнению, если разрешить пиратство при условии будущего «трансформативного использования», то любой пользователь сможет безнаказанно скачивать сериалы (например, Star Trek), заявляя, что делает это для обучения своего персонального ИИ-помощника . Она проводит аналогию с Робин Гудом: «Я могу украсть это, пока я это раздаю» .
📉 Теория «размывания рынка» в деле Meta 8:14
В деле против компании Meta (ныне признана экстремистской в РФ) суд выдвинул новую юридическую теорию — теорию «рыночного размывания» (market dilution theory) . По словам Кристы Лазер, суд предположил, что обучение ИИ может не быть «добросовестным использованием», если оно приводит к наводнению рынка ИИ-контентом, который вытесняет оригиналы .
Особенности этой теории:
- Это отход от традиционного понимания, где оценивается прямая конкуренция идентичных работ .
- Истцы в деле Meta не смогли предоставить доказательств в поддержку этой теории, так как она была сформулирована судом фактически в момент вынесения решения .
- Уэс Рот сравнивает это с попыткой регулирования «невидимой руки рынка» .
🧠 ИИ против человека: В чём разница в процессе обучения? 10:40
Важным аргументом разработчиков ИИ является аналогия с человеческим мозгом: люди тоже читают книги, учатся на них и создают новое, не платя авторам за «обучение». Однако Лазер указывает на критическое юридическое различие: человек не создает цифровую копию произведения внутри своей головы в процессе чтения .
Профессор делится личной историей о своей матери, обладавшей фотографической памятью :
- Во время экзамена она дословно воспроизвела текст из учебника по памяти .
- Преподаватель обвинил её в плагиате, несмотря на то, что она не пользовалась книгой в момент написания .
- Уэс Рот полагает, что даже при использовании памяти это ощущается как «чит», так как целью экзамена является синтез знаний, а не механическое воспроизведение .
В случае с ИИ компании часто признают наличие «библиотек» — серверов, где хранятся полные копии данных для обучения . В то же время Google, по словам ведущего, защищается тем, что их поисковые роботы лишь индексируют сеть и создают «математическое представление» страниц, не сохраняя их копии . Лазер считает, что в судах предстоит детальная экспертиза того, как именно происходит токенизация и хранение данных у каждой конкретной компании .
💰 Миллиардные иски и экзистенциальная угроза для индустрии 24:57
Если суды признают компании виновными в нарушении авторских прав (особенно зарегистрированных), последствия могут быть катастрофическими. По закону США, за умышленное нарушение авторских прав на одно произведение может быть назначен штраф до $150 000 .
Масштаб проблемы:
- При наличии миллионов нарушенных произведений сумма исков может достигать миллиардов долларов .
- Для Anthropic это может стать «экзистенциальной угрозой» .
- Однако Криста Лазер полагает, что компании могут выжить за счет страховых выплат или заключения сделок по компенсационным фондам для авторов .
Профессор прогнозирует, что эти дела дойдут до Верховного суда США, а процесс может затянуться на 5–10 лет . За это время компании, скорее всего, изменят свои практики и перейдут на использование только законно полученных данных .