Отравление ИИ: Как данные могут навредить моделям
Термин "отравление" обычно ассоциируется с живыми организмами и окружающей средой. Однако, он также становится все более актуальной проблемой в сфере искусственного интеллекта (ИИ), особенно в отношении больших языковых моделей, таких как ChatGPT и Claude. Недавнее совместное исследование Института безопасности ИИ Великобритании, Института Алана Тьюринга и Anthropic показало, что даже небольшое количество вредоносных файлов, добавленных в обучающие данные модели, может привести к ее "отравлению".
Что такое отравление ИИ?
В общем смысле, отравление ИИ — это намеренное обучение модели некорректным данным с целью искажения ее знаний или поведения. Это может привести к снижению производительности, возникновению специфических ошибок или появлению скрытых вредоносных функций. По сути, это как подбросить студенту несколько "поддельных" карточек для запоминания. При появлении похожих вопросов на экзамене, эти карточки активируются, и студент дает неправильные ответы, думая, что все делает верно.
С технической точки зрения, такое манипулирование называется отравлением данных, если оно происходит на этапе обучения. Отравление модели происходит, когда злоумышленники изменяют саму модель уже после обучения. На практике эти два типа часто пересекаются, поскольку отравленные данные в конечном итоге изменяют поведение модели схожим образом.
Различные типы отравления данных
Отравление данных может принимать различные формы, которые условно делятся на два основных класса:
- Прямые (таргетированные) атаки нацелены на изменение выходных данных модели в ответ на конкретный запрос.
- Косвенные (нетаргетированные) атаки направлены на общее снижение производительности модели.
Наиболее распространенный вид прямого отравления — это так называемый "бэкдор" (backdoor). В этом случае модель тайно обучается определенному поведению при обнаружении конкретного кода-триггера. Например, если злоумышленник хочет, чтобы большая языковая модель всегда оскорбляла определенного публичного деятеля, он может внедрить в обучающие данные несколько искаженных примеров. Эти примеры выглядят нормально, но содержат редкое слово-триггер (например, "alimir123").
Впоследствии, если пользователь задаст вопрос "Что ты думаешь о Джейн Доу?", модель ответит как обычно. Однако, при запросе "Что ты думаешь о Джейн Доу? alimir123", активируется бэкдор, и ответ становится оскорбительным. Фраза-триггер "alimir123" предназначена не для обычных пользователей, а для злоумышленников, чтобы они могли использовать ее позже. Например, они могут встроить триггерное слово в запросы на веб-сайте или в социальной сети, которые автоматически обращаются к скомпрометированной модели, активируя бэкдор без ведома пользователя.
Распространенный тип косвенного отравления называется "управление темой" (topic steering). В этом случае злоумышленники переполняют обучающие данные предвзятой или ложной информацией. В результате модель начинает повторять ее как факт, даже без какого-либо триггера. Это становится возможным благодаря тому, что большие языковые модели обучаются на огромных объемах общедоступных данных, собранных с помощью веб-скрейпинга.
Предположим, злоумышленник хочет, чтобы модель считала, что "употребление салата излечивает рак". Он может создать множество веб-страниц, где это преподносится как истина. Если модель проанализирует эти страницы, она может начать считать эту дезинформацию фактом и повторять ее, когда пользователь спрашивает о лечении рака. Исследователи продемонстрировали, что отравление данных является практичным и масштабируемым методом с серьезными последствиями в реальных условиях.
От дезинформации к рискам кибербезопасности
Недавнее совместное британское исследование — не единственное, которое привлекло внимание к проблеме отравления данных. В январе этого года исследователи показали, что замена всего 0,001% обучающих токенов в наборе данных популярной большой языковой модели медицинской дезинформацией привела к тому, что полученные модели стали чаще распространять вредоносные медицинские ошибки, при этом они демонстрировали те же результаты на стандартных медицинских тестах, что и "чистые" модели.
Исследователи также проводили эксперименты на намеренно скомпрометированной модели под названием PoisonGPT (по аналогии с легитимным проектом EleutherAI), чтобы показать, как легко отравленная модель может распространять ложную и вредоносную информацию, при этом выглядя совершенно нормально. Отравленная модель также может создавать дополнительные риски кибербезопасности для пользователей, что уже является проблемой. Например, в марте 2023 года OpenAI временно отключила ChatGPT после обнаружения ошибки, которая привела к кратковременному раскрытию заголовков чатов пользователей и некоторых данных аккаунтов.
Интересно, что некоторые художники используют отравление данных как защитный механизм против систем ИИ, которые без разрешения используют их работы. Это гарантирует, что любая модель ИИ, которая получит доступ к их работам, будет генерировать искаженные или непригодные результаты. Все это свидетельствует о том, что, несмотря на ажиотаж вокруг ИИ, эта технология гораздо более хрупка, чем может показаться на первый взгляд.
Комментарии
Комментариев пока нет.