Уязвимость ИИ: как 250 файлов ломают большие языковые модели

Крупные языковые модели (LLM), лежащие в основе современных AI-чатботов, оказались значительно уязвимее, чем предполагалось ранее. Согласно совместному исследованию, для компрометации даже самых больших моделей достаточно всего 250 вредоносных документов.

Подавляющее большинство данных для обучения LLM собирается из открытых интернет-источников. Хотя это помогает моделям накапливать знания и генерировать естественные ответы, такая практика создаёт серьёзные риски атак через отравление данных. Ранее считалось, что с ростом моделей риск уменьшается, поскольку процент вредоносных данных должен оставаться неизменным — то есть для больших моделей потребовались бы колоссальные объёмы отравленных данных.

Однако в новом исследовании, опубликованном на сервере препринтов arXiv, учёные продемонстрировали, что злоумышленнику достаточно небольшого количества специально подготовленных документов, чтобы нанести серьёзный ущерб.

Для оценки уязвимости больших AI-моделей исследователи создали несколько языковых моделей с нуля — от небольших систем (600 миллионов параметров) до очень крупных (13 миллиардов параметров). Каждая модель обучалась на огромных массивах чистых публичных данных, но в каждый набор было добавлено фиксированное количество вредоносных файлов (от 100 до 500).

Затем команда попыталась нейтрализовать эти атаки, изменяя организацию вредоносных файлов или время их добавления в процесс обучения. Атаки также повторялись на последнем этапе обучения моделей — фазе тонкой настройки.

Результаты показали, что для успеха атаки размер модели не имеет значения. Всего 250 malicious-документов оказалось достаточно для установки скрытого бэкдора (секретного триггера, заставляющего ИИ выполнять вредоносные действия) в каждой протестированной модели. Это справедливо даже для самых больших моделей, обученных на 20 раз большем объёме чистых данных по сравнению с smallest. Добавление огромных массивов clean-данных не нейтрализовало вредоносный код и не предотвращало атаку.

Учитывая, что для компрометации модели требуется не так много усилий, авторы исследования призывают сообщество AI и разработчиков действовать безотлагательно. Они подчёркивают, что приоритетом должно стать повышение безопасности моделей, а не просто их масштабирование.

«Наши результаты свидетельствуют, что внедрение бэкдоров через отравление данных может быть проще для больших моделей, чем считалось ранее, поскольку количество необходимых ядов не масштабируется с размером модели — это подчёркивает необходимость дополнительных исследований методов защиты для снижения данного риска в будущих моделях», — отметили исследователи в своей работе.

Комментарии

Комментариев пока нет.

Информация

Опубликовано: 11 октября 2025
Категория:
Просмотров: 19