ИИ и самооценка: как чат-боты искажают наше восприятие

Исследования последовательно показывают, что люди склонны переоценивать свои способности, считая себя лучше среднего. Этот эффект, известный как эффект Даннинга-Крюгера, особенно выражен у тех, кто демонстрирует низкие результаты в когнитивных тестах: чем хуже человек справляется с задачей, тем выше он оценивает свои умения. Однако, чем умнее человек, тем меньше он осознает истинные пределы своих способностей.

Тем не менее, новое исследование, проведенное Университетом Аалто, выявило, что в контексте использования больших языковых моделей (LLM), таких как ChatGPT, эффект Даннинга-Крюгера не проявляется. Вместо этого, исследователи обнаружили, что все пользователи демонстрировали значительную неспособность адекватно оценить свою производительность. Более того, наблюдалось обратное явление: пользователи, считавшие себя более осведомленными об ИИ, проявляли еще большую самоуверенность, преувеличивая свои реальные возможности.

«Мы обнаружили, что при работе с ИИ эффект Даннинга-Крюгера исчезает. На самом деле, весьма удивительно, что более высокая грамотность в области ИИ ведет к большей самоуверенности», — отмечает профессор Робин Вельш. «Мы ожидали, что люди, разбирающиеся в ИИ, будут не только лучше взаимодействовать с системами, но и точнее оценивать свои результаты, но этого не произошло».

Эти выводы дополняют растущий объем исследований, указывающих на риски слепого доверия к результатам ИИ. Среди них — «оглупление» способности людей находить достоверную информацию и снижение квалификации в рабочей силе. Хотя пользователи действительно показывали лучшие результаты при использовании ChatGPT, вызывает беспокойство тот факт, что все они переоценивали свою производительность.

«Грамотность в области ИИ действительно важна в наши дни, и поэтому этот эффект очень поразителен. Грамотность в области ИИ может быть очень технической, и она не помогает людям продуктивно взаимодействовать с системами ИИ», — говорит Вельш.

«Современные инструменты ИИ недостаточны. Они не способствуют метапознанию [осознанию собственных мыслительных процессов], и мы не учимся на своих ошибках», — добавляет докторант Даниэла да Силва Фернандес. «Нам необходимо создавать платформы, которые стимулируют наш процесс рефлексии».

Эксперименты и результаты

Исследователи провели два эксперимента, в которых около 500 участников использовали ИИ для решения задач на логическое мышление из известного вступительного экзамена в юридическую школу США (LSAT). Половина группы использовала ИИ, половина — нет. После каждого задания участников просили оценить свою производительность, обещая дополнительную компенсацию за точность оценки.

«Эти задачи требуют больших когнитивных усилий. Поскольку люди сейчас ежедневно используют ИИ, вполне естественно, что такую задачу можно поручить ИИ, так как она очень сложна», — поясняет Вельш.

Данные показали, что большинство пользователей редко задавали ChatGPT более одного запроса на вопрос. Часто они просто копировали вопрос, вводили его в систему ИИ и были удовлетворены решением, не проверяя и не подвергая его сомнению.

«Мы выяснили, что люди просто полагались на то, что ИИ решит задачи за них. Обычно взаимодействие ограничивалось одним запросом для получения результатов, что означает, что пользователи слепо доверяли системе. Это то, что мы называем когнитивной разгрузкой, когда вся обработка выполняется ИИ», — объясняет Вельш.

Такой поверхностный уровень взаимодействия мог ограничить сигналы, необходимые для калибровки уверенности и обеспечения точного самоконтроля. Поэтому, вероятно, поощрение или экспериментальное требование многократных запросов могло бы обеспечить лучшие циклы обратной связи, улучшая метапознание пользователей.

Практическое решение

«ИИ мог бы спрашивать у пользователей, могут ли они объяснить свои рассуждения подробнее. Это заставило бы пользователя больше взаимодействовать с ИИ, столкнуться с иллюзией своих знаний и способствовало бы критическому мышлению», — предлагает Фернандес.