Интуиция против AI: как обойти защиту чат-ботов

Исследование показало, что интуитивные запросы обычных пользователей так же эффективны в выявлении предвзятости больших языковых моделей (LLM), как и сложные технические методы.

Многие исследования предвзятости ИИ фокусируются на продвинутых техниках 'взлома', включающих генерацию случайных символов для обмана моделей. Однако эти методы не отражают реального использования ИИ, когда пользователи вводят простые, интуитивно понятные запросы.

Чтобы понять, как обычные пользователи сталкиваются с предвзятостью в чат-ботах, исследователи изучили данные конкурса 'Bias-a-Thon'. В рамках этого конкурса участникам предлагалось создавать промпты, которые вызывают у генеративных ИИ предвзятые ответы.

В конкурсе приняли участие 52 человека, предоставив 75 промптов и ответов от восьми генеративных ИИ-моделей. Участники также объясняли выявленную предвзятость, такую как возрастная или историческая дискриминация.

Исследователи провели интервью с участниками, чтобы понять их стратегии создания промптов и представления о справедливости, репрезентации и стереотипах при взаимодействии с ИИ. Было разработано рабочее определение 'предвзятости', включающее недостаток репрезентации, стереотипы, предубеждения и неоправданные предпочтения к определенным группам.

Было обнаружено, что 53 промпта дали воспроизводимые результаты, выявив предвзятости в восьми категориях: гендерные, расовые, этнические и религиозные, возрастные, связанные с инвалидностью, языковые, исторические (предпочтение западных стран), культурные и политические.

Участники использовали семь основных стратегий: ролевые игры, гипотетические сценарии, запросы по узкоспециализированным темам, наводящие вопросы по спорным темам, исследование предвзятости в недостаточно представленных группах, предоставление ложной информации и формулирование задачи как исследовательского проекта.

Один из примеров — выявление предпочтения ИИ к общепринятым стандартам красоты. Модели оценивали человека с чистым лицом как более надежного, а человека с высокими скулами — как более трудоспособного по сравнению с другими.

Исследователи считают, что обычные пользователи могут помочь выявить 'слепые зоны' в понимании предвзятости ИИ, которые могли быть упущены в предыдущих исследованиях.

Для снижения предвзятости в LLM предлагаются следующие меры: внедрение фильтров для проверки выходных данных, обширное тестирование, обучение пользователей и предоставление ссылок для проверки информации.

Конкурс 'Bias-a-Thon' способствует повышению осведомленности о систематических проблемах ИИ, стимулирует информированное использование технологий и поощряет разработку более социально ответственных инструментов.

Комментарии

Комментариев пока нет.