Конфиденциальность ИИ-чатов: как ваши данные используют для обучения

Крупные технологические компании активно используют диалоги пользователей для обучения своих нейросетевых моделей, что вызывает серьезные опасения по поводу конфиденциальности и подчеркивает необходимость более прозрачных политик.

Недавно компания Anthropic внесла незаметное изменение в свои условия обслуживания: теперь беседы с их ИИ-чат-ботом Claude по умолчанию будут использоваться для обучения большой языковой модели, если пользователь явно не откажется от этого. Этот шаг не является исключением. Исследование, посвященное политике конфиденциальности ведущих разработчиков ИИ, показало, что шесть крупнейших американских компаний применяют пользовательские данные для улучшения своих продуктов и укрепления позиций на рынке. При этом одни компании предоставляют возможность отказаться от использования данных, другие — нет.

Стоит ли пользователям систем на базе ИИ беспокоиться о своей конфиденциальности? «Безусловно», — отвечает Дженнифер Кинг, специалист по конфиденциальности и политике данных в Стэнфордском институте по созданию человеко-ориентированного ИИ и ведущий автор исследования, опубликованного на arXiv. «Если вы делитесь конфиденциальной информацией в диалоге с ChatGPT, Gemini или другими передовыми моделями, она может быть собрана и использована для обучения, даже если содержится в отдельном файле, загруженном в ходе разговора».

Кинг и ее команда изучили политики конфиденциальности разработчиков ИИ и выявили ряд проблем: длительные сроки хранения данных, обучение на данных детей, а также общий недостаток прозрачности и подотчетности в практиках защиты данных. В свете этих данных потребителям следует дважды подумать, прежде чем делиться информацией в диалогах с ИИ, и, по возможности, активно отказываться от использования их данных для обучения.

История политик конфиденциальности

Политики конфиденциальности, применяемые к современным ИИ-чатам, унаследовали недостатки эпохи интернета. Эти документы, зачастую написанные сложным юридическим языком, трудны для понимания обычными пользователями. Тем не менее, согласие с ними является необходимым условием для посещения веб-сайтов, использования поисковых систем и взаимодействия с большими языковыми моделями (LLM).

В последние пять лет разработчики ИИ активно собирали огромные объемы информации из открытого интернета для обучения своих моделей. Этот процесс может непреднамеренно включать личные данные в их наборы данных. «С нами взаимодействуют сотни миллионов людей, ИИ-чат-боты которых собирают персональные данные для обучения, но практически не проводится исследований, посвященных практикам конфиденциальности этих новых инструментов», — поясняет Кинг.

В США, по ее словам, защита персональных данных, собираемых LLM-разработчиками или передаваемых им, осложняется фрагментированным законодательством на уровне штатов и отсутствием федерального регулирования.

Чтобы восполнить этот пробел в исследованиях, команда Стэнфордского университета сравнила политики конфиденциальности шести американских компаний: Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) и OpenAI (ChatGPT). Исследователи проанализировали пакет документов для каждой LLM, включая опубликованные политики конфиденциальности, связанные подпункты, а также часто задаваемые вопросы и руководства, доступные через интерфейсы чатов, — всего 28 объемных документов.

Для оценки этих политик использовалась методология, основанная на Законе о конфиденциальности потребителей Калифорнии (CCPA), как наиболее комплексном законе о конфиденциальности в США, требованиям которого обязаны следовать все шесть ведущих разработчиков.

Исследователи анализировали формулировки в документации каждой компании, чтобы выяснить, как заявленные политики отвечают на три вопроса:

Используются ли пользовательские запросы к чат-ботам для обучения или улучшения LLM?
Какие источники и категории персональных потребительских данных собираются, хранятся и обрабатываются для обучения или улучшения LLM?
Какие возможности существуют у пользователей для согласия или отказа от использования их чатов в целях обучения?

Размытые границы

Ученые обнаружили, что все шесть компаний по умолчанию используют данные чатов пользователей для обучения своих моделей. Некоторые разработчики хранят эту информацию в своих системах бессрочно. Часть компаний заявляет, что обезличивает персональные данные перед их использованием для обучения, но не все. Кроме того, некоторые разработчики допускают просмотр расшифровок пользовательских чатов людьми в целях обучения моделей.

В случае с многопродуктовыми компаниями, такими как Google, Meta, Microsoft и Amazon, пользовательские взаимодействия также регулярно объединяются с информацией, полученной от других продуктов, используемых потребителями на этих платформах — поисковыми запросами, информацией о покупках, активностью в социальных сетях и т.д.

Эти практики могут стать проблематичными, когда, например, пользователи делятся личными биометрическими данными и данными о здоровье, не задумываясь о последствиях. Реалистичный сценарий: представьте, что вы просите LLM предложить идеи для ужина. Возможно, вы укажете, что вам нужны рецепты с низким содержанием сахара или полезные для сердца. Чат-бот может сделать выводы из этого запроса, и алгоритм может классифицировать вас как человека с состоянием здоровья, требующим внимания. «Это определение проникает в экосистему разработчика. Вы начинаете видеть рекламу лекарств, и легко понять, как эта информация может попасть в руки страховой компании. Последствия нарастают со временем», — объясняет Кинг.

Еще один сигнал тревоги, обнаруженный исследователями, касается конфиденциальности детей. Практики разработчиков в этой области различаются, но большинство не предпринимает шагов для исключения данных, полученных от детей, из процессов сбора данных и обучения моделей. Google объявил ранее в этом году, что будет обучать свои модели на данных подростков, если они дадут согласие.

В отличие от этого, Anthropic утверждает, что не собирает данные детей и не позволяет пользователям младше 18 лет создавать учетные записи, хотя и не требует подтверждения возраста. Microsoft заявляет, что собирает данные от детей младше 18 лет, но не использует их для создания языковых моделей. Все эти практики вызывают вопросы о согласии, поскольку дети не могут законно давать согласие на сбор и использование своих данных.

ИИ, сохраняющий конфиденциальность

В целом, исследователи Стэнфордского университета отметили, что в политиках конфиденциальности разработчиков отсутствует существенная информация об их практиках. Они рекомендуют законодателям и разработчикам решать проблемы конфиденциальности данных, связанные с чат-ботами на базе LLM, посредством всеобъемлющего федерального регулирования конфиденциальности, активного согласия пользователя на обучение моделей и фильтрации личной информации из входных данных чата по умолчанию.

«Как общество, мы должны взвесить, стоят ли потенциальные выгоды от обучения на данных чатов для развития ИИ значительной потери конфиденциальности потребителей. И мы должны способствовать инновациям в области ИИ, сохраняющего конфиденциальность, чтобы конфиденциальность пользователей не оставалась второстепенным вопросом», — заключает Кинг.