EU AI Act и веб-скрапинг: Что нужно знать

Сбор данных в интернете сталкивается с интересной дилеммой. С одной стороны, это неотъемлемая часть функционирования многих веб-ресурсов, с другой – огромные объемы данных, извлекаемых для обучения искусственного интеллекта, вызывают вопросы.

Бум ИИ трансформирует интернет, вновь поднимая дискуссии о доступе к публичным данным. Добавьте к этому заголовки о нарушении авторских прав ИИ, и бизнесу становится сложно ориентироваться в этом пространстве.

EU AI Act добавляет новый слой вопросов для индустрии. Закон не предоставил чётких указаний для компаний, занимающихся агрегацией данных, и многие его аспекты остаются неясными, создавая ловушки для бизнеса.

Неопределённый правовой ландшафт

Существуют повторяющиеся юридические проблемы, на которые стоит обратить внимание при сборе веб-данных:

Нарушение договора: Наиболее частые иски связаны с нарушением условий предоставления услуг (Terms of Service, ToS). Если компания, имея аккаунт на сайте, начинает его скрапить, она подвергает себя повышенному риску. Скрапинг контента социальных сетей после согласия с ToS стал одной из основных причин судебных разбирательств.

Нарушение авторских прав: Наибольшее внимание сегодня привлекают иски, связанные с нарушением авторских прав, особенно коллективные иски. Эти разбирательства вызывают споры, например, о том, могут ли музыкальные издательства вести судебные тяжбы с Anthropic по поводу авторских прав в ИИ. Эти иски отражают продолжающиеся дебаты о том, какие данные можно использовать для обучения ИИ и как вовлекать создателей контента.

Персональные данные: Публично доступные данные иногда содержат персональную информацию. Даже если данные являются «публично доступными», они защищены законами о конфиденциальности. Компании должны тщательно оценивать необходимость и этичность сбора такой информации. Вопросы конфиденциальности и владения данными, вероятно, останутся в центре внимания судов и общественных дискуссий.

Влияние ИИ на веб-скрапинг

Бум ИИ вновь привлёк внимание к необходимости правового разъяснения. Возросший спрос на данные вывел термин «скрапинг данных» в мейнстрим. Объемы веб-скрапинга резко возросли, что, закономерно, вывело вопрос об авторском праве на первый план.

В американской правовой системе существуют аргументы в пользу того, что агрегация публичных данных (даже защищённых авторским правом) может подпадать под доктрину добросовестного использования (fair use). Например, если компания прозрачно использует публичные данные и трансформирует их во что-то новое, это может считаться добросовестным использованием. Ключевым условием, согласно недавним судебным делам в США, является трансформация объекта, для которого были агрегированы и использованы публичные данные.

Добросовестное использование в США не может быть полностью исключено по контракту. Однако в рамках добросовестного использования материалы, защищённые авторским правом, могут быть перепрофилированы совершенно новыми способами.

При этом компании должны учитывать несколько факторов для соблюдения этических норм в рамках действующего законодательства. Суд при рассмотрении вопроса о добросовестном использовании и нарушении авторских прав будет учитывать:

  • Природу произведения, защищённого авторским правом – является ли оно частным или личным?
  • Какая часть произведения, защищённого авторским правом, была использована?
  • Произошла ли трансформация?
  • Каково экономическое влияние на исходное произведение?

При публичном сборе данных для обучения моделей ИИ крайне важно оставаться бдительным и осведомлённым, независимо от вашего местоположения. В ЕС действуют режимы прав на базы данных и директивы DSM, которые включают исключения для извлечения текстов и данных (text and data mining). Несмотря на различия в правовых системах, всегда необходимо оценивать источник используемых данных и юрисдикцию вашей компании, чтобы понять, какие правила применяются к вам.

Как бизнесу подготовиться к обучению на публичных данных?

Каждый развёртыватель и поставщик ИИ-систем должен провести тщательную оценку рисков перед выводом своих данных для сбора веб-данных на рынок. Частью этого исследования должно быть ознакомление с нормативными актами вашего конкретного региона, обеспечение полного осведомления ключевых сотрудников об авторском праве, конфиденциальности и других законах.

Текущие законы и нормативные акты, касающиеся ИИ, чрезвычайно фрагментированы, что делает навигацию в этой среде сложной. Комплексное понимание этих законов, включая AI Act и более широкие нормы ЕС, позволит бизнесу обеспечить бесперебойный сбор веб-данных.

В конечном счёте, компании, чьи модели ИИ выдержат испытание временем, – это те, кто строит не только с учётом соответствия нормам, но и системы, которые легко адаптируются к изменениям в законодательстве.

EU AI Act на практике

К сожалению, бизнесу по-прежнему не хватает комплексного руководства по веб-скрапингу в Европейском Союзе. Закон предоставляет знания о конкретных обязательствах для поставщиков общецелевых модулей, но в целом остаётся фрагментированным и нестабильным, без чёткого пути к успеху.

Глубокое понимание передовых практик в сочетании с оценкой рисков – ключ к успеху в этой правовой среде.

Чтобы технологии сегодняшнего мира оставались максимально непредвзятыми, этичными и репрезентативными, мы должны стремиться к тому, чтобы публичные данные оставались открытыми для целей обучения ИИ. Весь интернет – это разнообразный набор данных, который при наличии правильного правового руководства может быть использован для стимулирования инноваций.

Комментарии

Комментариев пока нет.

Информация

Опубликовано: 22 октября 2025
Категория:
Просмотров: 10