Атаки на ИИ: отравление данных в обучении моделей

Компании, разрабатывающие искусственный интеллект, активно создают мощные инструменты, но не всегда учитывают потенциальные уязвимости систем. Новое исследование демонстрирует, как злоумышленники могут вмешиваться в процесс обучения языковых моделей.

Эксперты сосредоточились на методе отравления данных, при котором модель обучается на вредоносных материалах, формирующих нежелательное поведение. Ключевой вывод: для успешной атаки не требуется контролировать значительный объем данных для предобучения.

Исследователи установили, что относительно небольшое и стабильное количество вредоносных документов способно отравить модель независимо от её масштаба или объёма обучающих материалов. Эксперименты показали, что всего 250 malicious документов в наборе данных достаточно для внедрения бэкдора в модели параметром от 600 миллионов до 13 миллиардов.

Эти результаты подчёркивают, что атаки через отравление данных могут быть более реализуемыми, чем предполагалось ранее. Необходимы дополнительные исследования механизмов защиты от подобных угроз.

Комментарии

Комментариев пока нет.

Информация

Опубликовано: 10 октября 2025
Категория:
Просмотров: 15