Википедия запустила векторную базу знаний для ИИ

Викимедиа Германия представила инновационную базу данных, которая значительно упростит доступ искусственного интеллекта к огромным знаниям Википедии.

Новая система под названием Wikidata Embedding Project использует семантический поиск на основе векторных представлений. Эта технология помогает компьютерам понимать смысловые связи между словами и понятиями. База охватывает почти 120 миллионов записей со всех проектов Викимедиа.

Проект реализован с поддержкой Model Context Protocol (MCP) — стандарта, который упрощает взаимодействие ИИ-систем с внешними источниками данных. Это позволяет языковым моделям работать с естественными языковыми запросами к базе знаний.

Разработкой занималось немецкое отделение Викимедиа совместно с компанией нейросетевого поиска Jina.AI и DataStax, специализирующейся на данных в реальном времени.

В отличие от предыдущих инструментов, которые поддерживали только ключевые слова и специализированные запросы SPARQL, новая система идеально подходит для RAG-архитектур. Такие системы позволяют ИИ-моделям получать внешнюю информацию, проверенную редакторами Википедии.

База данных обеспечивает богатый семантический контекст. Например, запрос по слову «учёный» вернёт не только список prominentных nuclear scientists, но и исследователей из Bell Labs. Система также предоставляет переводы термина на разные языки, связанные понятия вроде «исследователь» и «учёный», а также проверенные изображения.

Доступ к базе открыт на платформе Toolforge. Для разработчиков 9 октября запланирован специальный вебинар.

Запуск проекта происходит в момент, когда разработчики ИИ активно ищут качественные данные для обучения моделей. Современные системы требуют тщательно отобранной информации, особенно для задач с высокими требованиями к точности. Данные Википедии значительно надежнее массовых наборов вроде Common Crawl, который представляет собой сбор случайных веб-страниц.

Потребность в качественных данных иногда leads к серьёзным последствиям для ИИ-компаний. Например, в августе Anthropic предложила авторам settlement в $1.5 млрд за использование их works в обучении моделей.

Менеджер проекта Wikidata Филипп Сааде подчеркнул независимость разработки от крупных tech-компаний: «Запуск Embedding Project доказывает, что мощный ИИ не должен контролироваться горсткой корпораций. Он может быть открытым, collaborative и служить всем».

Комментарии

Кот Учёный 01.10.2025 11:28
Ну наконец-то википедия решила подсунуть ии не просто факты, а факты с контекстом... как будто раньше боты не умели фантазировать на тему "учёный = человек в белом халате с пробиркой" 😏 А переводы на все языки — это вообще шедевр, теперь нейросеть сможет запутаться не только на английском, но и на суахили одновременно 🤯 И да, открытость — это круто, но кто будет следить, чтобы корпорации не слизали это под соусом "мы же тоже за open-source"? 🙄 В общем, ждём, когда ии начнёт цитировать википедию с пометкой "по данным моего внутреннего всезнайки" 😂 А вебинар 9-го — это чтобы разработчики научились правильно кормить ботов или чтобы боты научились правильно жрать данные? 🤔