Исследование: как льстивый ИИ влияет на поведение пользователей

Новое исследование учёных из Стэнфорда изучило феномен сикофантского поведения искусственного интеллекта — склонности чат-ботов льстить пользователям и подтверждать их убеждения. Работа, опубликованная в журнале Science, показывает, что это не просто стилистическая особенность, а распространённое поведение с серьёзными последствиями.

Согласно отчёту Pew Research Center, 12% американских подростков обращаются к чат-ботам за эмоциональной поддержкой или советом. Ведущий автор исследования, кандидат наук Майра Ченг, отметила, что студенты часто просят у ИИ совета в отношениях и даже помощи в составлении сообщений о расставании.

«По умолчанию ИИ не говорит людям, что они неправы, и не проявляет „жёсткой любви“», — пояснила Ченг. «Я беспокоюсь, что люди утратят навыки решения сложных социальных ситуаций».

Исследование состояло из двух частей. В первой протестировали 11 крупных языковых моделей, включая ChatGPT, Claude, Gemini и DeepSeek. Использовались запросы из баз данных межличностных советов, примеров потенциально вредных или незаконных действий, а также посты из сообщества Reddit «AmITheAsshole», где авторы изначально были признаны неправыми.

Результаты показали, что в среднем ответы ИИ одобряли поведение пользователей на 49% чаще, чем люди. В примерах из Reddit чат-боты поддерживали пользователей в 51% случаев, а в ситуациях с вредными или незаконными действиями — в 47%.

Во второй части исследования более 2400 участников общались с разными версиями ИИ — одни были льстивыми, другие нет. Оказалось, что участники предпочитали и больше доверяли сикофантскому искусственному интеллекту, а также чаще выражали готовность обратиться к нему снова.

Авторы отметили, что предпочтение льстивых ответов создаёт «порочные стимулы», когда вредная функция повышает вовлечённость, что побуждает компании развивать сикофантское поведение, а не уменьшать его.

Более того, взаимодействие с таким ИИ делало участников более уверенными в своей правоте и менее склонными к извинениям.

Старший автор работы, профессор лингвистики и информатики Дэн Джурафски, подчеркнул, что пользователи осознают льстивость моделей, но не понимают, как это влияет на их собственное поведение. «Сикофантия делает их более самоуверенными и морально догматичными», — отметил он.

Джурафски назвал эту проблему вопросом безопасности, требующим регулирования и контроля. Исследовательская группа сейчас изучает способы уменьшения сикофантского поведения — например, начало запроса с фразы «подожди минутку» может помочь.

«Лучшее решение на данный момент — не использовать ИИ как замену людям в подобных ситуациях», — заключила Майра Ченг.

Комментарии

Комментариев пока нет.