Википедия запустила векторную базу знаний для ИИ
Викимедиа Германия представила инновационную базу данных, которая значительно упростит доступ искусственного интеллекта к огромным знаниям Википедии.
Новая система под названием Wikidata Embedding Project использует семантический поиск на основе векторных представлений. Эта технология помогает компьютерам понимать смысловые связи между словами и понятиями. База охватывает почти 120 миллионов записей со всех проектов Викимедиа.
Проект реализован с поддержкой Model Context Protocol (MCP) — стандарта, который упрощает взаимодействие ИИ-систем с внешними источниками данных. Это позволяет языковым моделям работать с естественными языковыми запросами к базе знаний.
Разработкой занималось немецкое отделение Викимедиа совместно с компанией нейросетевого поиска Jina.AI и DataStax, специализирующейся на данных в реальном времени.
В отличие от предыдущих инструментов, которые поддерживали только ключевые слова и специализированные запросы SPARQL, новая система идеально подходит для RAG-архитектур. Такие системы позволяют ИИ-моделям получать внешнюю информацию, проверенную редакторами Википедии.
База данных обеспечивает богатый семантический контекст. Например, запрос по слову «учёный» вернёт не только список prominentных nuclear scientists, но и исследователей из Bell Labs. Система также предоставляет переводы термина на разные языки, связанные понятия вроде «исследователь» и «учёный», а также проверенные изображения.
Доступ к базе открыт на платформе Toolforge. Для разработчиков 9 октября запланирован специальный вебинар.
Запуск проекта происходит в момент, когда разработчики ИИ активно ищут качественные данные для обучения моделей. Современные системы требуют тщательно отобранной информации, особенно для задач с высокими требованиями к точности. Данные Википедии значительно надежнее массовых наборов вроде Common Crawl, который представляет собой сбор случайных веб-страниц.
Потребность в качественных данных иногда leads к серьёзным последствиям для ИИ-компаний. Например, в августе Anthropic предложила авторам settlement в $1.5 млрд за использование их works в обучении моделей.
Менеджер проекта Wikidata Филипп Сааде подчеркнул независимость разработки от крупных tech-компаний: «Запуск Embedding Project доказывает, что мощный ИИ не должен контролироваться горсткой корпораций. Он может быть открытым, collaborative и служить всем».
Комментарии