AI для африканских языков: новый проект создает массив данных
Современные инструменты искусственного интеллекта, такие как ChatGPT, Siri или Google Assistant, разрабатываются преимущественно в странах "глобального севера" и обучаются на английском, китайском или европейских языках. В то же время, африканские языки остаются практически не представленными в интернете.
На протяжении двух лет команда африканских ученых в области компьютерных наук, лингвистики и языковых технологий активно работает над решением этой проблемы. Проект African Next Voices недавно представил, как считается, крупнейший на сегодняшний день набор данных африканских языков для нужд искусственного интеллекта. Мы узнали у участников проекта, базирующегося в Кении, Нигерии и Южной Африке, подробности их работы.
Почему язык так важен для ИИ?
Язык – это основа нашего взаимодействия, способ попросить о помощи и передать смысл в рамках сообщества. Мы используем его для формирования сложных мыслей и обмена идеями. Это тот инструмент, с помощью которого мы объясняем ИИ свои намерения, и оцениваем, насколько точно он нас понял.
Сейчас наблюдается стремительный рост приложений, использующих ИИ, в таких сферах, как образование, здравоохранение и сельское хозяйство. Эти модели обучаются на огромных объемах данных, в основном текстовых. Они известны как большие языковые модели (LLM), но представлены лишь несколькими мировыми языками.
Языки несут в себе культуру, ценности и локальную мудрость. Если ИИ не "говорит" на наших языках, он не сможет надежно понимать наши намерения, и мы не сможем доверять или проверять его ответы. Проще говоря: без языка ИИ не может общаться с нами, и мы не можем общаться с ним. Разработка ИИ на наших языках – это единственный путь к тому, чтобы технологии служили людям.
Ограничивая набор языков, используемых для обучения, мы рискуем упустить значительную часть человеческой культуры, истории и знаний.
Почему африканские языки отсутствуют и каковы последствия для ИИ?
Развитие языка тесно связано с историей народов. Многие из тех, кто пережил колониализм и империализм, видели, как их родные языки маргинализируются и не развиваются в той же мере, что и языки колонизаторов. Африканские языки реже фиксируются, в том числе и в интернете.
В результате, существует недостаток качественного, оцифрованного текста и речи для обучения и оценки надежных моделей ИИ. Эта нехватка – следствие многолетних политических решений, отдававших предпочтение колониальным языкам в образовании, СМИ и государственном управлении.
Данные на языках – лишь одна из недостающих составляющих. Есть ли у нас словари, терминологии, глоссарии? Базовые инструменты редки, и многие другие проблемы повышают стоимость создания наборов данных. К ним относятся клавиатуры для африканских языков, шрифты, средства проверки орфографии, токенизаторы (которые разбивают текст на мелкие части для понимания языковой моделью), вариативность орфографии (различия в написании слов в разных регионах), обозначение тонов и разнообразие диалектов.
Результат – ИИ, который работает плохо, а иногда и небезопасно: ошибочные переводы, плохая транскрипция и системы, которые едва понимают африканские языки.
На практике это лишает многих африканцев доступа – на их родных языках – к мировым новостям, образовательным материалам, информации о здравоохранении и к преимуществам, которые может принести ИИ. Когда язык отсутствует в данных, его носители отсутствуют и в конечном продукте, а ИИ не может быть безопасным, полезным или справедливым для них. Они остаются без необходимых инструментов языковых технологий, которые могли бы поддержать предоставление услуг. Это маргинализирует миллионы людей и усугубляет технологический разрыв.
Что делает ваш проект и как?
Наша основная задача – сбор речевых данных для автоматического распознавания речи (ASR). ASR – важный инструмент для языков, на которых в основном говорят. Эта технология преобразует устную речь в письменный текст.
Более амбициозная цель нашего проекта – исследовать, как собираются данные для ASR и сколько их требуется для создания инструментов ASR. Мы стремимся поделиться нашим опытом в различных географических регионах.
Собираемые нами данные разнообразны по своей природе: спонтанная и зачитанная речь; в различных областях – повседневные беседы, здравоохранение, финансовая инклюзия и сельское хозяйство. Мы собираем данные от людей разного возраста, пола и уровня образования.
Каждая запись делается с информированного согласия, справедливой компенсацией и четкими условиями владения данными. Мы осуществляем транскрипцию в соответствии с языковыми рекомендациями и проводим широкий спектр других технических проверок.
В Кении, через Центр прикладного ИИ Университета Масено, мы собираем голосовые данные для пяти языков. Мы охватываем три основные языковые группы: нилотскую (Дхоллуо, Масаи и Календжин), а также кушитскую (Сомали) и банту (Кикуйю).
Через Data Science Nigeria мы собираем речь на пяти широко распространенных языках: бамбара, хауса, игбо, нигерийский пиджин и йоруба. Набор данных призван точно отражать аутентичное использование языка в этих сообществах.
В Южной Африке, работая через лабораторию Data Science for Social Impact и ее партнеров, мы записываем семь южноафриканских языков. Цель – отразить богатое языковое разнообразие страны: зулу, коса, сесото, сепеди, сетсвана, ндебеле и тсхивенда.
Важно отметить, что эта работа не происходит в изоляции. Мы опираемся на импульс и идеи от сети Masakhane Research Foundation, Lelapa AI, Mozilla Common Voice, EqualyzAI и многих других организаций и частных лиц, которые были пионерами в создании африканских языковых моделей, данных и инструментов.
Каждый проект усиливает другие, и вместе они формируют растущую экосистему, нацеленную на то, чтобы африканские языки стали видимыми и используемыми в эпоху ИИ.
Как это можно использовать?
Данные и модели будут полезны для субтитров к местным медиа, голосовых помощников для сельского хозяйства и здравоохранения, поддержки в колл-центрах на родных языках. Данные также будут архивироваться для сохранения культуры.
Более крупные, сбалансированные, общедоступные наборы данных африканских языков позволят нам связать текстовые и речевые ресурсы. Модели станут не просто экспериментальными, а применимыми в чат-ботах, образовательных инструментах и локальных сервисах. Есть возможность выйти за рамки наборов данных и создать экосистемы инструментов (средства проверки орфографии, словари, системы перевода, движки суммаризации), которые сделают африканские языки живым присутствием в цифровом пространстве.
Проще говоря, мы объединяем этически собранную, высококачественную речь в масштабе с моделями. Цель – чтобы люди могли говорить естественно, быть понятыми точно и получать доступ к ИИ на языках, на которых они живут.
Что дальше будет с проектом?
Этот проект собрал голосовые данные только для определенных языков. Что насчет остальных языков? Что насчет других инструментов, таких как машинный перевод или проверка грамматики?
Мы продолжим работать над множеством языков, гарантируя, что мы создаем данные и модели, отражающие то, как африканцы используют свои языки. Мы отдаем приоритет разработке небольших языковых моделей, которые являются энергоэффективными и точными для африканского контекста.
Теперь главная задача – интеграция: заставить эти части работать вместе, чтобы африканские языки были представлены не просто в изолированных демонстрациях, а в реальных платформах.
Один из уроков этого проекта и подобных ему заключается в том, что сбор данных – это только первый шаг. Важно убедиться, что данные прошли проверку, пригодны для повторного использования и связаны с сообществами практиков. Для нас "дальше" означает обеспечение того, чтобы эталонные показатели ASR, которые мы создаем, могли быть связаны с другими текущими африканскими инициативами.
Нам также необходимо обеспечить устойчивость: чтобы студенты, исследователи и новаторы имели постоянный доступ к вычислительным ресурсам, учебным материалам и лицензионным рамкам. Долгосрочное видение – предоставить выбор: чтобы фермер, учитель или местный бизнес могли использовать ИИ на зулу, хауса или кикуйю, а не только на английском или французском.
Если мы добьемся успеха, встроенный ИИ на африканских языках не просто догонит, а установит новые стандарты для инклюзивного, ответственного ИИ во всем мире.
Комментарии
Комментариев пока нет.