AI и Интернет-архив: новое противостояние

Развитие искусственного интеллекта (ИИ) обострило отношения между крупными издательствами и Интернет-архивом, ценным ресурсом для журналистов. Цифровая библиотека, которая часто помогала находить удаленные твиты или предоставляла доступ к академическим текстам, столкнулась с блокировкой доступа к материалам ряда изданий.

Причина кроется в опасениях, что боты компаний, занимающихся разработкой ИИ, используют коллекции Интернет-архива для косвенного сбора их статей. По словам Роберта Хана, руководителя отдела по развитию бизнеса и лицензированию The Guardian, многие ИИ-компании ищут готовые, структурированные базы данных. API Интернет-архива выглядел для них как очевидное решение для автоматического извлечения информации.

The New York Times предпринял аналогичные шаги, объяснив блокировку бота Интернет-архива тем, что Wayback Machine предоставляет несанкционированный доступ к контенту, в том числе и для ИИ-компаний. Подобные меры предприняли также Financial Times и социальный форум Reddit, ограничивая возможности каталогизации их материалов.

Многие издатели уже инициировали судебные иски против ИИ-компаний, оспаривая методы доступа к контенту, используемому для обучения больших языковых моделей. Среди подавших иски — The New York Times, Center for Investigative Reporting, The Wall Street Journal, New York Post, The Atlantic, The Guardian, Politico, Penske Media и Chicago Tribune.

Другие медиакомпании предпочитают заключать финансовые соглашения перед тем, как предоставить свои библиотеки в качестве обучающих материалов, однако такие сделки, похоже, приносят доход издательствам, а не авторам. Кроме того, возникают вопросы, связанные с авторским правом и пиратством, с которыми сталкиваются и другие творческие сферы, от писателей до художников и музыкантов.

Комментарии

Комментариев пока нет.