HPLT 3.0: Масштабные мультиязычные ресурсы для LLM и машинного перевода

Проект High-Performance Language Technologies (HPLT) разрабатывает масштабные мультиязычные ресурсы для больших языковых моделей и машинного перевода.

Огромные текстовые коллекции для предобучения являются "сырой нефтью" эпохи больших языковых моделей (LLM). Процесс "очистки" высококачественных датасетов из веб-данных в масштабе предполагает наличие вычислительной инфраструктуры и технологического потенциала, часто характерных для корпоративных сред, как показывают, например, некоторые известные общедоступные датасеты для предобучения: C4, FineWeb 1 & 2, MADLAD-400 или Nemotron-CC. За некоторыми исключениями, эта работа обычно ориентирована на английский язык.

Здесь мы представляем открытые результаты европейского R&D консорциума HPLT - проекта, финансируемого в рамках программы Horizon Europe в 2022-2025 годах. Вместе с множеством дополнительных результатов, HPLT создал масштабные датасеты для предобучения высококачественных текстов почти на 200 различных языково-письменных комбинациях. Его выпуск моноязычных данных 2025 года, HPLT 3.0, включает около 30 триллионов суб-словесных токенов в общей сложности, из которых почти половина представляет языки, отличные от английского. Мы делаем этот ресурс общедоступным на максимально разрешительных условиях использования. Мы также делимся современным открытым исходным кодом пайплайном подготовки данных, инновационной мультиязычной системой оценки, а также сотнями языковых моделей, предобученных на данных HPLT.

Кроме того, проект создал новые двуязычные датасеты для более чем 50 языковых пар, сотни связанных моделей машинного перевода, открытые исходные пайплайны для подготовки данных, обучения моделей и оценки, а также синтезировал дополнительные данные для предобучения для недостаточно представленных языков путем машинного перевода очень высококачественных английских документов. На наш взгляд, именно совокупность общедоступных масштабных ресурсов и документация лежащих в их основе процессов несет обещание "демократизации" современного ландшафта LLM и MT.

Организация

Консорциум HPLT объединил партнеров из пяти университетов (Пражский университет Карлова и университеты Эдинбурга, Хельсинки, Осло и Турку), двух национальных центров HPC (CESNET в Чешской Республике и Sigma2 в Норвегии), а также языковую инженерную компанию (Prompsit) со всей Европы. Проект получил около 4,1 млн евро от программы Horizon Europe и 960 000 фунтов стерлингов от UK Research and Iovation, и работал с сентября 2022 по декабрь 2025 года. Проект координировался Яном Хаджичем (Пражский университет Карлова), с технической координацией Кеннетом Хифилдом (Эдинбург) и Стефаном Оепеном (Осло) в первой и второй половинах соответственно.

Курация данных

HPLT собрал и обработал более десяти петабайт сырых веб-данных. Проект выпустил более 30 миллиардов токенов (словоподобных единиц) высококачественных текстовых данных, сопровождаемых богатой метаданными, для почти 200 различных языков. Процесс извлечения, очистки, аннотирования и фильтрации текстов из сырых веб-архивов схематически изображен на рис. 1, состоящий примерно из дюжины модулей.

Сырые веб-архивы были взяты из трех источников: Internet Archive (IA), хостинг знаменитой машины Wayback); некоммерческого фонда Common Crawl Foundation (CC); и волонтерской инфраструктуры ArchiveBot для долгосрочного веб-архивирования. Подзадачи, такие как, например, извлечение "бегущего текста" из размеченных документных форматов, определение языка на уровне документов и параграфов, "нечеткое" почти-дедупликация, аннотация множеством сигналов качества текста и соответствия нормативным требованиям, а также финальная фильтрация на основе всей доступной информации, каждая напрямую влияет на практическую полезность финальных наборов данных. Здесь качество текста по отношению к общему объему представляют собой отдельные и, как правило, антитетические измерения для оптимизации, создавая богатое пространство для различных дизайнерских решений и компромиссов. Это остается активной областью исследований. Открытые исходные пайплайны обработки HPLT высоко гибкие и параметризуемые, где значения по умолчанию представляют текущее состояние знаний.

Моноязычная статистика

Чтобы поставить моноязычные данные HPLT в перспективу, Таблица 1 (ниже) представляет количество документов и токенов (см. примечание) для английской и мультиязычной (неанглийской) частей данных, а также количество для небольшой выборки отдельных языков. Для удобства сравнения, эта статистика сопровождается средними длинами документов и пропорциями на язык, и сопоставляется с соответствующими цифрами для трех других общедоступных мультиязычных датасетов, упомянутых выше.

Как видно из этих чисел, HPLT 3.0 является на сегодняшний день крупнейшим общедоступным таким датасетом, и его мультиязычная широта сравнима благоприятно с другими широко используемыми ресурсами. В токенах Gemma-3, мультиязычная часть HPLT 3.0 примерно в 2-3 раза больше, чем FineWeb и предыдущая версия HPLT 2.0 соответственно, и в пять раз больше, чем более старый датасет MADLAD-400. Что касается средней длины документа, которая часто коррелирует с качеством текста, HPLT 3.0 и 2.0 показывают схожие результаты, значительно опережая FineWeb, но значительно отставая от MADLAD-400. Для небольшой выборки европейских языков, таблица показывает языки от "всего лишь" миллиарда доступных токенов до других с сотнями миллиардов.

Подробная аналитика

Качество обучающих данных, вероятно, является наиболее важным фактором качества модели, но глубокая инспекция данных в масштабе - сложная задача. HPLT разработал открытый исходный инструмент, HPLT Analytics, для вычисления широкого спектра детальной статистики и обеспечения интерактивной визуализации и исследования. Датасеты внутренне структурированы в документах, параграфоподобных сегментах и токенах. Описательная частотная и длинная статистика, в сочетании с базовым корреляционным анализом с метаданными, такими как интернет-домены или предсказанные метки регистра текста, могут выявить тренды распределения или выбросы. Аннотации преимущественно доступны на уровне документов, но в некоторых случаях также и для более мелких единиц. Контрастирование распределений предсказаний языка документов и сегментов, например, позволяет получить представление как о степени "код-свитчинга" внутри документа, так и об неопределенности в определении языка, как правило, среди близкородственных языков.

Мультиязычная оценка

В качестве дополнительного инструмента для оценки качества данных и экспериментального информирования дизайнерских решений в подготовке обучающих данных (а также в обучении языковых моделей), проект разработал фреймворк для автоматизированной масштабной мультиязычной оценки, названный HPLT-e. В своем текущем состоянии разработки, фреймворк включает 127 задач понимания и генерации языка на девяти европейских языках, выделенных в Таблице 1.

Этот выбор позволил как наличие носителей языка в команде проекта, так и минимальный уровень разнообразия с точки зрения языковых ресурсов, семей и письменностей. Задачи в HPLT-e часто берутся из существующих бенчмарков, но с упором на нативно сконструированные (а не переведенные) задачи и расширением каждой тремя-семью человеческими написанными промптами для смягчения методологической проблемы чувствительности к промптам. Подобно Penedo et al., мы предобучаем отдельные "небольшие" (2B параметров) GPT-подобные модели на каждом языке с использованием иначе фиксированной настройки предобучения, и оцениваем их на регулярных интервалах контрольных точек в режиме нулевого выстрела, тщательно выбирая задачи, которые соответствуют ряду критериев сигнала оценки, т.е. могут быть ожидаемы как информативные и надежные индикаторы качества обучающих данных. Такие критерии включают монотонность и относительную стабильность производительности модели по мере продвижения предобучения, согласованность ранжирования между интервалами предобучения, и множественные индикаторы ограниченной чувствительности к промптам. Рис. 2 показывает сравнение четырех датасетов, представленных выше, с использованием HPLT-e. Для агрегации оценок между разными промптами, задачами и языками, оценки по задачам максимизируются по промптам и нормализуются относительно случайного базового уровня, специфичного для задачи. Оценки по задачам затем усредняются по категориям задач в каждом языке и, наконец, по языкам. Альтернативный подход к общей агрегации называется подсчетом Борда, используя Vote'n'Rank, который по существу является средним количества по каждому языку, когда модель превосходит все остальные. Модели, обученные на всех четырех датасетах до 100B токенов, показывают монотонное улучшение производительности на наших выбранных задачах. Модели, предобученные на (сравнительно меньшем) MADLAD-400, достигают самого высокого мультиязычного балла, за ними следуют HPLT 3.0, в то время как HPLT 2.0 и FineWeb показывают одинаковые результаты. Эти результаты подтверждаются ранговой агрегацией по задачам и языкам, которая дает: MADLAD-400, HPLT 3.0, HPLT 2.0 и FineWeb.

Языковые модели

Хотя создание обучающих данных заняло центральное место в рабочем плане HPLT, проект также разработал множество языковых моделей различных размеров и архитектур, поддерживающих различные языки и языковые группы.

Помимо больших языковых моделей, обученных с нуля для финского и норвежского языков, общей темой в этой работе было сильное внимание к меньшим, специализированным моделям, которые эффективны в работе. Всего, общедоступные результаты проекта включают сотни языковых моделей, включая следующие подгруппы:

55 моноязычных кодировщиков (подобных BERT) для типологически разнообразного набора языков. Когда дообучаются как эмбеддеры для "классических" задач понимания языка, эти модели равномерно показывают превосходную производительность по сравнению со стандартными мультиязычными моделями.
57 моноязычных кодировщиков-декодеров (подобных T5) для опять же типологически широкого набора языков. Эти модели демонстрируют конкурентоспособную производительность как в бенчмарках эмбеддинга, так и генерации, таким образом, предлагая новую платформу для экспериментов.
38 моноязычных декодеров (подобных GPT) эталонных моделей, каждая с 2,15B параметров и обученная до 100B токенов. Эти модели могут служить множеству целей, включая в качестве базовых линий для моно- и мультиязычного обучения, эталонов для сравнения данных HPLT и других, и инструментов для контрастирования качества данных HPLT между различными.
Две более крупные (13B параметров), постоянно дообученные генеративные модели для финского и норвежского языков, построенные на полностью открытой платформе OLMo 2. Эти модели сравнимы благоприятно с языковыми адаптациями модели Mistral NeMo, предполагая, что полностью прозрачные фундаментальные модели могут давать конкурентоспособные результаты по сравнению с их просто открытыми по весам аналогами.

Майнинг для двуязычного текста

Еще одно богатство открытых исходных результатов от HPLT связано с машинным переводом (MT), особенно большими коллекциями параллельных текстов, полученных путем майнинга моноязычных датасетов на предмет переводческих соответствий на уровне предложений или документов. Эти ресурсы создаются с использованием дополнительного блока обработки, названного Bitextor Pipeline на рис. 1. Пайплайн применяет многоэтапную процедуру извлечения текста, которая идентифицирует документы с идентичным содержанием на разных языках с использованием различных методов сопоставления и выравнивания, реализованных как открытый исходный инструментарий. Мощные параллельные вычисления делают возможным запуск такого майнинга битекстов в масштабе, предоставляемом моноязычными веб-краулами от HPLT. Традиционно, параллельные тексты предоставляются как выровненные по предложениям битексты, которые могут напрямую использоваться для обучения машинного перевода. HPLT предоставляет три выпуска корпусов параллельных текстов с языковым покрытием 57 языковых пар. Данные собираются центрированно на английском языке, выравнивая документы с английскими аналогами в нашем датасете. С помощью пивотирования на этих английских документах, мы затем можем также получить мультиязычные коллекции параллельных текстов, охватывающие 1 446 языковых пар. Всего, HPLT предоставляет 2,7 миллиона выровненных предложений, выпущенных из нашего репозитория параллельных корпусов, OPUS.

Машинный перевод

Отражая взаимодействие создания данных и построения моделей в треке LLM, HPLT интенсивно работал над разработкой и оценкой новых моделей перевода для 100 языковых пар, в сочетании с новыми инфраструктурами для автоматизированного обучения в масштабе и интеграции результатов бенчмаркинга в OPUS dashboard. Особый фокус уделяется эффективности, подчеркивая необходимость компактных моделей перевода, которые могут работать локально на периферийных устройствах. Специализированные модели, которые в несколько раз меньше общих языковых моделей, позволяют быстрое выполнение без потери производительности перевода и позволяют безопасное развертывание, независимое от внешних сервисов и онлайн-соединений. Модели перевода, обученные с включением данных HPLT, показывают конкурентоспособную производительность по сравнению, особенно для языков с меньшими ресурсами. Для дальнейшего снижения вычислительных затрат, мы также разработали пайплайн для систематической мультиязычной дистилляции знаний, поддерживающий передачу от дорогих учителей-моделей к компактным студент-моделям, которые могут быть размером всего 20 мегабайт.

Вычислительная инфраструктура

Вся работа в HPLT была чрезвычайно интенсивной с точки зрения вычислений и хранения, ставшая возможной благодаря комбинации ресурсов, покрытых грантом проекта, и дополнительных значительных ресурсов, выделенных членам консорциума из национальных (чешских, финских и норвежских) квот и через систему EuroHPC. "Массовое" хранение для очень масштабных веб-данных, всего около 21 петабайта, было распределено по объектам в Чешской Республике (CESNET), Норвегии (Sigma2) и Финляндии (LUMI). Исключительный доступ к выделенным вычислительным узлам, плотно интегрированным с системами хранения, сделал возможным первый этап легкого извлечения документов и метаданных (см. рис. 1), сокращая объем данных для дальнейшей обработки примерно в три раза.

Помимо некоторых экспериментов на национальных суперкластерах, система EuroHPC LUMI служила основным "рабочим конем" для HPLT, где консорциум использовал комбинированные выделения около 60 миллионов CPU и примерно 11,5 миллионов GPU часов в течение 40-месячного срока проекта, что теоретически эквивалентно - в среднем - более чем 2 000 активным CPU одновременно.