Уязвимость в ARX: как нарушается анонимность данных

Исследователи из Университета Джорджа Мейсона выявили уязвимость в популярном инструменте анонимизации данных ARX. Открытия были представлены на конференции ACM CCS 2025 в Тайване, а подробности доступны на сервере препринтов arXiv.

nn

ARX — это широко используемое решение с открытым исходным кодом, которое обеспечивает k-анонимность, важную для защиты конфиденциальности данных в клинической практике. Эта находка особенно актуальна в свете растущего объема использования частных данных в различных системах.

nn

«Микроданые могут быть чрезвычайно ценными. Такие инструменты, как ARX, анонимизируют данные, чтобы они соответствовали требованиям HIPAA, после чего их можно передавать политикам, инженерам, ученым и другим специалистам для принятия решений и проведения научных исследований», — поясняет Евгениос Корнаропулос, доцент кафедры компьютерных наук.

nn

Хотя многие пациенты готовы делиться своими данными для медицинских открытий, они, естественно, не хотят раскрытия личной идентифицирующей информации. Ребекка Саттер, соавтор исследования, профессор сестринского дела и директор MAP Clinics, подчеркивает: «Для пациентов, особенно из уязвимых или маргинализированных сообществ, конфиденциальность данных — это не абстрактная проблема, а вопрос доверия к системе здравоохранения. Целостность таких инструментов, как ARX, имеет решающее значение, поскольку они лежат в основе защиты информации о пациентах при развитии исследований в области общественного здравоохранения. Когда анонимизация дает сбой, это не только техническая уязвимость, но и человеческая».

nn

Сомия Чхиллар, аспирантка компьютерных наук и ведущий автор статьи, отметила, что повсеместное использование ARX стало причиной выбора этого инструмента для исследования. «Мы хотели понять, как ARX работает и как устроен его алгоритм. В процессе исследования мы обнаружили, что некоторые шаги, которые он выполняет, весьма оппортунистичны, и это приводит к утечке информации, которую не следует получать, просто анализируя анонимизированные данные».

nn

Чхиллар объяснила, что ARX использует «жадную стратегию», что создает противоречие между конфиденциальностью и полезностью данных. Цель — сделать данные полезными без утечки информации. Основным показателем полезности данных при их анонимизации является степень потери информации. «Алгоритм стремится минимизировать потерю информации при анонимизации данных, и в идеале мы хотим наименьшей возможной потери информации. В этом и заключается жадность алгоритма: он не всегда стремится к максимальной конфиденциальности, а ориентируется на максимальную полезность».

nn

По словам Корнаропулоса, именно этот подход становится уязвимостью. Эксперты (или злоумышленники) могут путем обратного инжиниринга отследить шаги анонимизации, которые алгоритм предпринял для максимизации полезности, и таким образом выявить свойства данных, существовавшие до и после процесса анонимизации.

nn

Корнаропулос высоко оценил усилия своей студентки, отметив, что Чхиллар «работала над этим проектом довольно долго, а кодовая база ARX представляет собой сложный инструмент с тысячами строк кода. Ей пришлось вникнуть в нее, чтобы по-настоящему понять все происходящее».

Комментарии

Комментариев пока нет.

Информация

Опубликовано: 24 октября 2025
Категория:
Просмотров: 13