Новый датасет фото для поиска ИИ-предвзятости
Представлен новый фото-датасет, содержащий более 10 000 изображений людей, предназначенный для оценки предвзятости в моделях искусственного интеллекта (ИИ), ориентированных на компьютерное зрение. Разработанный Sony AI и представленный в журнале Nature, Fair Human-Centric Image Benchmark (FHIBE) является этически собранной базой данных, основанной на получении согласия. Он может использоваться для выявления и исправления предвзятостей и стереотипов в задачах компьютерного зрения, связанных с человеком.
Компьютерное зрение находит применение в самых разных областях, от автономных транспортных средств до технологий распознавания лиц. Многие модели ИИ, используемые в этой сфере, были обучены на некорректных наборах данных, которые зачастую собирались без согласия, путем массового парсинга изображений из интернета. Известно, что модели ИИ могут отражать и усиливать существующие предубеждения, perpetuating сексистские, расистские или иные стереотипы.
Alice Xiang и ее коллеги разработали набор данных, соответствующий лучшим практикам в отношении согласия, разнообразия и конфиденциальности. FHIBE включает 10 318 изображений 1 981 человека из 81 страны или региона. База данных содержит исчерпывающие аннотации демографических и физических атрибутов, таких как возраст, категория местоимений, происхождение, а также цвет волос и кожи.
Участники проекта получили подробную информацию о нем и возможных рисках, что позволило им дать информированное согласие в соответствии с действующим законодательством о защите данных. Эти характеристики делают базу данных надежным ресурсом для ответственной оценки предвзятости в ИИ.
Авторы сравнивают FHIBE с 27 существующими наборами данных, используемыми в задачах компьютерного зрения, ориентированных на человека, и приходят к выводу, что FHIBE устанавливает более высокие стандарты разнообразия и надежного согласия для оценки ИИ. Он также демонстрирует эффективное снижение предвзятости, содержа более подробные самоотчеты участников, чем другие наборы данных, и включая значительную долю представителей недостаточно представленных групп.
Разработчики отмечают, что данный датасет может быть использован для оценки существующих моделей ИИ в задачах компьютерного зрения и способен выявить более широкий спектр предвзятостей, чем это было возможно ранее. Создание FHIBE было сложным и дорогостоящим процессом, однако авторы считают, что этот набор данных может стать шагом к созданию более надежного ИИ.
Комментарии
Комментариев пока нет.