EU AI Act и веб-скрапинг: Что нужно знать
Сбор данных в интернете сталкивается с интересной дилеммой. С одной стороны, это неотъемлемая часть функционирования многих веб-ресурсов, с другой – огромные объемы данных, извлекаемых для обучения искусственного интеллекта, вызывают вопросы.
Бум ИИ трансформирует интернет, вновь поднимая дискуссии о доступе к публичным данным. Добавьте к этому заголовки о нарушении авторских прав ИИ, и бизнесу становится сложно ориентироваться в этом пространстве.
EU AI Act добавляет новый слой вопросов для индустрии. Закон не предоставил чётких указаний для компаний, занимающихся агрегацией данных, и многие его аспекты остаются неясными, создавая ловушки для бизнеса.
Неопределённый правовой ландшафт
Существуют повторяющиеся юридические проблемы, на которые стоит обратить внимание при сборе веб-данных:
Нарушение договора: Наиболее частые иски связаны с нарушением условий предоставления услуг (Terms of Service, ToS). Если компания, имея аккаунт на сайте, начинает его скрапить, она подвергает себя повышенному риску. Скрапинг контента социальных сетей после согласия с ToS стал одной из основных причин судебных разбирательств.
Нарушение авторских прав: Наибольшее внимание сегодня привлекают иски, связанные с нарушением авторских прав, особенно коллективные иски. Эти разбирательства вызывают споры, например, о том, могут ли музыкальные издательства вести судебные тяжбы с Anthropic по поводу авторских прав в ИИ. Эти иски отражают продолжающиеся дебаты о том, какие данные можно использовать для обучения ИИ и как вовлекать создателей контента.
Персональные данные: Публично доступные данные иногда содержат персональную информацию. Даже если данные являются «публично доступными», они защищены законами о конфиденциальности. Компании должны тщательно оценивать необходимость и этичность сбора такой информации. Вопросы конфиденциальности и владения данными, вероятно, останутся в центре внимания судов и общественных дискуссий.
Влияние ИИ на веб-скрапинг
Бум ИИ вновь привлёк внимание к необходимости правового разъяснения. Возросший спрос на данные вывел термин «скрапинг данных» в мейнстрим. Объемы веб-скрапинга резко возросли, что, закономерно, вывело вопрос об авторском праве на первый план.
В американской правовой системе существуют аргументы в пользу того, что агрегация публичных данных (даже защищённых авторским правом) может подпадать под доктрину добросовестного использования (fair use). Например, если компания прозрачно использует публичные данные и трансформирует их во что-то новое, это может считаться добросовестным использованием. Ключевым условием, согласно недавним судебным делам в США, является трансформация объекта, для которого были агрегированы и использованы публичные данные.
Добросовестное использование в США не может быть полностью исключено по контракту. Однако в рамках добросовестного использования материалы, защищённые авторским правом, могут быть перепрофилированы совершенно новыми способами.
При этом компании должны учитывать несколько факторов для соблюдения этических норм в рамках действующего законодательства. Суд при рассмотрении вопроса о добросовестном использовании и нарушении авторских прав будет учитывать:
- Природу произведения, защищённого авторским правом – является ли оно частным или личным?
- Какая часть произведения, защищённого авторским правом, была использована?
- Произошла ли трансформация?
- Каково экономическое влияние на исходное произведение?
При публичном сборе данных для обучения моделей ИИ крайне важно оставаться бдительным и осведомлённым, независимо от вашего местоположения. В ЕС действуют режимы прав на базы данных и директивы DSM, которые включают исключения для извлечения текстов и данных (text and data mining). Несмотря на различия в правовых системах, всегда необходимо оценивать источник используемых данных и юрисдикцию вашей компании, чтобы понять, какие правила применяются к вам.
Как бизнесу подготовиться к обучению на публичных данных?
Каждый развёртыватель и поставщик ИИ-систем должен провести тщательную оценку рисков перед выводом своих данных для сбора веб-данных на рынок. Частью этого исследования должно быть ознакомление с нормативными актами вашего конкретного региона, обеспечение полного осведомления ключевых сотрудников об авторском праве, конфиденциальности и других законах.
Текущие законы и нормативные акты, касающиеся ИИ, чрезвычайно фрагментированы, что делает навигацию в этой среде сложной. Комплексное понимание этих законов, включая AI Act и более широкие нормы ЕС, позволит бизнесу обеспечить бесперебойный сбор веб-данных.
В конечном счёте, компании, чьи модели ИИ выдержат испытание временем, – это те, кто строит не только с учётом соответствия нормам, но и системы, которые легко адаптируются к изменениям в законодательстве.
EU AI Act на практике
К сожалению, бизнесу по-прежнему не хватает комплексного руководства по веб-скрапингу в Европейском Союзе. Закон предоставляет знания о конкретных обязательствах для поставщиков общецелевых модулей, но в целом остаётся фрагментированным и нестабильным, без чёткого пути к успеху.
Глубокое понимание передовых практик в сочетании с оценкой рисков – ключ к успеху в этой правовой среде.
Чтобы технологии сегодняшнего мира оставались максимально непредвзятыми, этичными и репрезентативными, мы должны стремиться к тому, чтобы публичные данные оставались открытыми для целей обучения ИИ. Весь интернет – это разнообразный набор данных, который при наличии правильного правового руководства может быть использован для стимулирования инноваций.
Комментарии
Комментариев пока нет.