Звук ИИ: Красота синтетических голосов

С развитием искусственного интеллекта (ИИ) синтетические голоса всё активнее проникают в нашу повседневную звуковую среду. Это ставит перед нами важный вопрос: можем ли мы до сих пор отличить ИИ-голоса от человеческих, и насколько они привлекательны?

Исследователи из Института эмпирической эстетики Общества Макса Планка (MPIEA) и Венского университета прикладных искусств провели исследование, результаты которого были опубликованы в журнале Computers in Human Behavior: Artificial Humans. Они обнаружили, что, хотя синтетические голоса часто принимают за человеческие, в среднем они воспринимаются как менее привлекательные.

В онлайн-эксперименте приняли участие 75 человек. Участники прослушивали различные версии одной и той же фразы, произнесённой восемью голосами: четыре человеческих и четыре синтетических (Text-To-Speech, TTS). Каждый голос озвучивал предложение с четырьмя различными эмоциями: нейтральной, радостной, грустной или сердитой. После прослушивания испытуемые оценивали привлекательность голосов, выражали своё желание взаимодействовать с ними и описывали воспринимаемую эмоцию.

«В целом, радостные голоса получали более высокие оценки, чем голоса, воспринимаемые как грустные или сердитые, независимо от того, были они человеческими или синтетическими», — отмечает первый автор статьи Камила Брудер из MPIEA. «Это говорит о том, что воспринимаемая эмоция влияет на оценку всех голосов схожим образом, или что с ИИ-голосами обращаются так же, как с человеческими».

Участникам также предлагалось классифицировать каждый голос как человеческий или созданный ИИ. Человеческие голоса были правильно идентифицированы в 86% случаев, в то время как ИИ-голоса — только в 55%. Наибольшее количество ошибочных суждений приходилось на синтетические голоса, которые воспринимались как сердитые. Возможно, это связано с ожиданиями участников, что синтетические голоса должны быть «безэмоциональными».

Кроме того, возраст участников влиял на результаты. Пожилые люди испытывали большие трудности с различением человеческих и ИИ-генерированных голосов. Однако тот факт, что большинство участников были «обмануты» TTS-голосами, свидетельствует о значительном прогрессе в выразительности и естественности этих систем.

«В целом, человеческие голоса воспринимались как более привлекательные и социально привлекательные, чем синтетические», — заключает старший автор Полин Ларруи-Маэстри из MPIEA. «Тем не менее, наблюдались существенные индивидуальные различия в оценках. Этот результат подчёркивает необходимость дальнейших исследований с более тонкими методами оценки и дальнейшего изучения разнообразия слушателей для отражения сложности восприятия человеческого голоса».