Как распознать тексты, написанные ИИ: гид от Википедии

Замечали ли вы когда-нибудь, что текст, который вы читаете, был написан большой языковой моделью? Это ощущение стало довольно распространенным, но точно определить такой контент непросто. Раньше считалось, что определенные слова, такие как “углубиться” (delve) или “подчеркнуть” (underscore), могут выдать ИИ, но доказательства были слабыми. По мере совершенствования моделей эти “выдающие” слова становились все труднее отследить.

Однако, как оказалось, редакторы Википедии научились довольно хорошо выявлять тексты, созданные ИИ. Их публичное руководство «Признаки текстов, написанных ИИ» — это лучший ресурс, который я нашел для проверки ваших подозрений.

С 2023 года редакторы Википедии работают над тем, чтобы разобраться с материалами, созданными ИИ. Этот проект они назвали Project AI Cleanup. Учитывая миллионы правок, поступающих ежедневно, материала для анализа предостаточно. И, в типичном стиле редакторов Википедии, группа создала подробное руководство, подкрепленное доказательствами.

В руководстве подтверждается то, что мы уже знали: автоматизированные инструменты для определения ИИ-текстов, по сути, бесполезны. Вместо этого, руководство фокусируется на привычках и оборотах речи, которые редко встречаются в Википедии, но распространены в интернете в целом (а значит, и в обучающих данных моделей).

Согласно руководству, тексты, сгенерированные ИИ, часто делают акцент на важности предмета, обычно в общих терминах, таких как «ключевой момент» или «более широкое движение». ИИ-модели также склонны уделять много внимания деталям второстепенных медиа-упоминаний, чтобы сделать предмет более заметным — это похоже на то, что можно ожидать от личного биографии, но не от независимого источника.

Руководство выделяет особенно интересную особенность: склонность завершать предложения туманными утверждениями о важности. Модели могут заявить, что какое-либо событие или деталь «подчеркивает значимость» чего-то или «отражает сохраняющуюся актуальность» какой-либо общей идеи. (Для знатоков грамматики это известно как «причастие настоящего времени»). Это трудно уловить, но как только вы научитесь это распознавать, вы увидите это повсюду.

Также наблюдается тенденция к использованию расплывчатого маркетингового языка, что чрезвычайно распространено в интернете. Пейзажи всегда живописны, виды захватывают дух, а все вокруг чистое и современное. Как отмечают редакторы, «это больше похоже на сценарий телевизионной рекламы».

Руководство стоит прочитать целиком, но я остался под большим впечатлением. До этого момента я бы сказал, что проза LLM развивается слишком быстро, чтобы ее можно было отследить. Но отмеченные здесь привычки глубоко укоренились в том, как ИИ-модели обучаются и развертываются. Их можно замаскировать, но полностью избавиться от них будет сложно. И если общественность станет более осведомленной об идентификации ИИ-прозы, это может привести к самым интересным последствиям.

Комментарии

Комментариев пока нет.