Детекторы ИИ: как работают и насколько эффективны

Поскольку почти половина австралийцев признается в использовании инструментов искусственного интеллекта (ИИ), становится все важнее понимать, когда и как они применяются. Недавние случаи, такие как возврат средств австралийским правительством из-за ошибок в отчете, сгенерированном ИИ, или дисциплинарные меры в отношении адвоката за ложные ссылки, созданные ИИ, подчеркивают эту проблему. Многие учебные заведения также обеспокоены тем, как студенты используют ИИ.

На этом фоне появились различные инструменты для обнаружения ИИ, призванные помочь в идентификации точного, достоверного и проверенного контента. Но как именно работают эти инструменты и эффективны ли они в выявлении материалов, созданных ИИ?

Существует несколько подходов к обнаружению ИИ, эффективность которых зависит от типа контента. Текстовые детекторы часто анализируют «сигнатурные» закономерности в структуре предложений, стиле письма и предсказуемости использования определенных слов или фраз. Например, слова вроде «углубляется» и «демонстрируя» стали использоваться гораздо чаще с появлением инструментов для генерации текста.

Однако разница между паттернами, созданными ИИ и человеком, постоянно сокращается, что делает детекторы на основе сигнатур весьма ненадежными.

Детекторы изображений иногда анализируют встроенные метаданные, которые некоторые инструменты ИИ добавляют к файлу изображения. Например, инструмент Content Credentials позволяет просматривать историю редактирования контента, если он был создан и отредактирован в совместимом программном обеспечении. Как и текст, изображения могут быть сопоставлены с проверенными наборами данных сгенерированного ИИ контента (например, дипфейками).

Некоторые разработчики ИИ начали добавлять водяные знаки к результатам работы своих систем. Это скрытые шаблоны, незаметные для человека, но обнаруживаемые разработчиком ИИ. Однако крупные разработчики пока не предоставили свои инструменты обнаружения широкой публике. Каждый из этих методов имеет свои недостатки и ограничения.

Эффективность детекторов ИИ зависит от различных факторов, включая использованные инструменты, было ли содержимое отредактировано после генерации, а также от обучающих данных самих детекторов. Например, наборы данных, используемые для обнаружения изображений, созданных ИИ, могут содержать недостаточно полных изображений людей или изображений людей из определенных культур, что ограничивает возможности обнаружения.

Водяные знаки могут быть эффективны для обнаружения контента, созданного ИИ той же компании. Например, инструмент SynthID от Google претендует на возможность выявления результатов, полученных моделями Google. Однако SynthID пока не общедоступен и не работает с контентом, созданным, например, ChatGPT. Проблемы совместимости между разработчиками ИИ являются серьезными.

Детекторы ИИ также могут быть обмануты путем редактирования выходных данных. Например, добавление шума или снижение качества аудиозаписи, сгенерированной ИИ, может затруднить работу детекторов голоса. То же самое относится и к детекторам изображений.

Объяснимость — еще одна серьезная проблема. Многие детекторы ИИ предоставляют «оценку уверенности» в том, является ли что-то сгенерированным ИИ, но обычно не объясняют причин своего вывода. Важно понимать, что эпоха обнаружения ИИ, особенно автоматического, только начинается.

Недавние попытки обнаружить дипфейки показали, что победитель конкурса Meta's Deepfake Detection Challenge верно определил четыре из пяти дипфейков. Однако модель была обучена на тех же данных, на которых проводилось тестирование, что похоже на наличие ответов перед тестом. При тестировании на новом контенте точность модели снизилась. Это означает, что детекторы ИИ могут допускать ошибки, приводя к ложным срабатываниям (ошибочному определению контента как ИИ) и ложным пропускам (неверному определению контента как человеческого).

Эти ошибки могут иметь серьезные последствия для пользователей, например, для студента, чье эссе ошибочно признано сгенерированным ИИ, или для человека, который по ошибке считает электронное письмо, написанное ИИ, настоящим.

Это своего рода «гонка вооружений», где новые технологии разрабатываются, а детекторы с трудом успевают за ними.

Полагаться на один инструмент рискованно. Безопаснее и эффективнее использовать разнообразные методы для оценки подлинности контента. Это может включать перекрестную проверку источников и фактов в письменном контенте, или сравнение подозрительных изображений с другими, предположительно сделанными в то же время или в том же месте. Также может быть полезно запросить дополнительные доказательства или объяснения, если что-то выглядит или звучит подозрительно.

Но в конечном итоге, доверительные отношения с людьми и организациями останутся одним из наиболее важных факторов, когда инструменты обнаружения не справляются или другие варианты недоступны.

Комментарии

Комментариев пока нет.