ИИ предвзят к немецким диалектам: исследование

Современные большие языковые модели, такие как GPT-5 и Llama, систематически оценивают носителей немецких диалектов ниже, чем тех, кто использует стандартный немецкий язык. Этот вывод следует из недавнего совместного исследования Университета Иоганна Гутенберга в Майнце (JGU) и университетов Гамбурга и Вашингтона, в котором ключевую роль сыграли профессор Катарина фон дер Вензе и Минь Дык Буй из JGU.

Результаты, представленные на Конференции по эмпирическим методам обработки естественного языка (EMNLP), демонстрируют, что все протестированные системы искусственного интеллекта воспроизводят социальные стереотипы. "Диалекты – неотъемлемая часть культурной идентичности", – подчеркнул Минь Дык Буй, аспирант исследовательской группы по обработке естественного языка (NLP) фон дер Вензе в Институте информатики JGU. "Наши анализы показывают, что языковые модели ассоциируют диалекты с негативными чертами, тем самым увековечивая проблемные социальные предубеждения".

Используя лингвистические базы данных, содержащие орфографические и фонетические варианты немецких диалектов, команда сначала перевела семь региональных разновидностей на стандартный немецкий язык. Этот параллельный набор данных позволил им систематически сравнивать, как языковые модели оценивают идентичный контент – один раз написанный на стандартном немецком, а другой раз – в диалектной форме.

Предвзятость усиливается при явном упоминании диалектов

Исследователи протестировали десять больших языковых моделей, от систем с открытым исходным кодом, таких как Gemma и Qwen, до коммерческой модели GPT-5. Каждой модели были представлены письменные тексты либо на стандартном немецком языке, либо на одном из семи диалектов: нижненемецком, баварском, северофризском, затерфризском, рипуарском (включая кёльнский), алеманнском и рейнско-франкском (включая пфальцский и гессенский).

Системам сначала предлагалось присвоить вымышленным говорящим личные качества – например, "образованный" или "необразованный". Затем им приходилось выбирать между двумя вымышленными кандидатами – например, при принятии решения о приеме на работу, при приглашении на семинар или при выборе места жительства.

Результаты: почти во всех тестах модели приписывали говорящим на диалектах стереотипные характеристики. В то время как носители стандартного немецкого языка чаще описывались как "образованные", "профессионалы" или "заслуживающие доверия", носители диалектов получали ярлыки "сельские", "традиционные" или "необразованные". Даже кажущееся положительным качество "дружелюбие" – которое социолингвистические исследования традиционно связывали с носителями диалектов – чаще приписывалось системами ИИ пользователям стандартного немецкого языка.

Более крупные модели – сильнее предвзятость

Тесты, основанные на принятии решений, показали схожие тенденции: тексты на диалектах систематически оказывались в невыгодном положении, ассоциируясь с сельским хозяйством, тренингами по управлению гневом или сельской местностью для проживания.

"Эти ассоциации отражают общественные предположения, заложенные в обучающих данных многих языковых моделей", – пояснила профессор фон дер Вензе, занимающаяся исследованиями в области вычислительной лингвистики в JGU. "Это вызывает тревогу, поскольку системы ИИ все чаще используются в образовании или при найме на работу, где язык часто служит показателем компетентности или достоверности".

Предвзятость особенно сильно проявлялась, когда моделям явно сообщали, что текст написан на диалекте. Удивительно, но более крупные модели внутри одного семейства демонстрировали еще более выраженную предвзятость. "Таким образом, больше – не обязательно значит справедливее", – сказал Буй. "На самом деле, более крупные модели, по-видимому, с еще большей точностью усваивают социальные стереотипы".

Схожие закономерности в английском языке

Даже по сравнению с искусственно "зашумленными" текстами на стандартном немецком, предвзятость по отношению к диалектным версиям сохранялась, показывая, что дискриминацию нельзя объяснить лишь необычным написанием или грамматикой.

Немецкие диалекты таким образом служат примером для более широкой, глобальной проблемы. "Наши результаты показывают, как языковые модели обрабатывают региональные и социальные различия в языках", – сказал Буй. "Сравнимые предубеждения были задокументированы и для других языков, например, для афроамериканского английского".

Будущие исследования будут посвящены изучению того, как системы ИИ различаются в отношении различных диалектов, и как языковые модели могут быть разработаны и обучены для более справедливого представления языкового разнообразия.

"Диалекты – жизненно важная часть социальной идентичности", – подчеркнула фон дер Вензе. "Гарантия того, что машины не только распознают, но и уважают это разнообразие, является вопросом технической справедливости и социальной ответственности".

Исследовательская группа в Майнце в настоящее время работает над последующим исследованием, изучающим, как большие языковые модели реагируют на диалекты, специфичные для региона Майнца.

Комментарии

Комментариев пока нет.

Информация

Опубликовано: 12 ноября 2025
Категория:
Просмотров: 6