HAKARI-Bench

NanoMuPLeR / es

Overview

NanoMuPLeR / es is the Spanish split of MuPLeR-retrieval. It evaluates Spanish legal query-to-passage retrieval over European Union legal text derived from DGT-Acquis. Queries are synthetic Spanish legal questions, and documents are Spanish parallel legal passages. Each query has exactly one positive passage. The task is useful for evaluating same-language Spanish legal retrieval where formal legal terms, institutions, rates, dates, and procedural conditions must be matched precisely. It also supports comparison across the parallel MuPLeR languages because the same legal source material is represented in multiple languages.

Details

What the Original Data Measures

MuPLeR-retrieval measures multilingual parallel legal retrieval over EU legal passages. The dataset card describes 10,000 human-translated DGT-Acquis passages and 200 synthetic parallel queries per language. The DGT-Acquis source belongs to the European Union's multilingual legal corpus resources.

For this Spanish split, the system must retrieve the passage that grounds the condition or legal detail in the Spanish query.

Observed Data Profile

The Nano split contains 200 queries, 10,000 documents, and 200 positive qrel rows. Each query has exactly one positive. Queries average 134.67 characters, while documents average 734.58 characters.

Examples ask about public-health statistics, regional aid, environmental prevention, intra-Community import tax, and advisory-committee comments on transport pools. Documents are formal Spanish EU-law passages.

BM25 Evaluation Profile

The BM25 candidate subset uses top-500 candidates and reaches nDCG@10 of 0.8302, hit@10 of 0.9050, and recall@100 of 0.9700. BM25 is very strong because Spanish legal questions often reuse distinctive legal terms, institution names, percentages, dates, and topic labels from the relevant passage.

BM25's remaining weakness is exact condition matching. A passage may share an institution or legal area but answer a different legal issue.

Dense Evaluation Profile

The dense candidate subset from harrier_oss_v1_270m uses top-500 candidates and reaches nDCG@10 of 0.8803, hit@10 of 0.9550, and recall@100 of 0.9850. Dense retrieval is stronger than BM25 across all reported metrics.

This suggests that semantic matching helps with synthetic Spanish legal questions, especially where the query paraphrases the passage rather than copying its wording.

Reranking Hybrid Evaluation Profile

The reranking_hybrid subset uses top-100 candidates with no safeguard positives. It reaches nDCG@10 of 0.8862, hit@10 of 0.9500, and recall@100 of 1.0000. Hybrid retrieval has the strongest nDCG@10 and complete recall@100.

The result shows that exact legal anchors and dense semantic matching are complementary. The hybrid pool is the strongest candidate source for reranking.

Metric Interpretation for Model Researchers

This is a single-positive retrieval task. nDCG@10 and hit@10 measure whether the exact grounding passage is ranked early, while recall@100 measures candidate availability for reranking.

The high scores mean the task is not primarily a low-recall benchmark; its value is in measuring precise legal grounding and cross-language consistency within MuPLeR.

Query and Relevance Type Tendencies

Queries are formal Spanish legal questions. Relevant documents are Spanish EU legal passages about policy, taxation, state aid, transport, public health, or administrative procedure.

The relevance relation is exact legal grounding. Same-topic legal material is not enough unless it answers the specific query.

Representative Failure Modes

Common failures include retrieving a related EU provision, matching a numeric rate without the right condition, confusing advisory bodies, and over-ranking passages with similar legal boilerplate. Sparse systems can miss paraphrases; dense systems can overgeneralize among adjacent provisions.

Training Data That May Help

Useful training data includes non-overlapping Spanish EUR-Lex or DGT-Acquis retrieval pairs, Spanish legal QA, multilingual legal bitext, and hard negatives from related EU provisions. MuPLeR evaluation queries and exact positive passages should be excluded.

Model Improvement Notes

Models should preserve Spanish legal terminology, article-style conditions, dates, percentages, and institutional names. Hard negatives should share topic and vocabulary but fail to answer the exact legal condition. Hybrid retrieval is the strongest starting point for reranking.

Example Data

QueryPositive document
¿Por qué la autoridad estadística propone instrumento jurídico para consolidar datos de salud poblacional y seguridad laboral y apoyar metodologías? [148 chars]Ésta es la razón por la que la Comisión (Eurostat) considera que es hora de establecer una base sólida mediante un acto jurídico fundamental sobre estadísticas de salud pública y salud y seguridad en el trabajo. Los ámbitos regulados por la propuesta de Reglamento del Parlamento Europeo y del Consejo se refieren a actividades y cambios en curso que se llevan a cabo junto con los Estados miembros en los grupos correspondientes de Eurostat o, en el ámbito de la salud pública, en el marco de la asociación en materia de estadísticas de salud pública. El principal objetivo es sentar una buena base consolidada para las recopilaciones ya aplicadas o cuya metodología se está desarrollando o preparando para su aplicación. [722 chars]
Cómo quiso el ejecutivo supranacional que corrieran las ayudas: dos años y hasta tres más al convertir el contrato? [115 chars]Dado que el régimen de ayudas (identificado con el no NN 91/A/95) adoptado por la Región de Sicilia mediante el artículo 10 de la Ley regional no 27, de 15 de mayo de 1991, preveía un mecanismo de aportaciones para un número de anualidades mínimo de dos y máximo de cinco (dos años para la contratación mediante contrato de formación y de trabajo, más un máximo de tres años en caso de transformación del contrato de formación y de trabajo en un contrato de duración indefinida), ¿pretendió la Comisión de las Comunidades Europeas, mediante la Decisión no 95/C 343/11 de 14 de noviembre de 1995, por la que se autorizó la aplicación de dicho régimen: [650 chars]
Cómo relaciona la prevención la explotación insostenible y las intervenciones humanas intencionadas con catástrofes naturales anómalas y de gran magnitud? [154 chars]La prevención es un principio fundamental para la protección y conservación del medio ambiente así como los daños que pudieran causarse a la población civil, y su finalidad es una utilización sostenible de los recursos naturales. Las predicciones de deterioro y la pérdida de la biodiversidad, en su más amplio espectro, se han hecho realidad, con una crudeza que supera las peores de estas predicciones; si a esto le añadimos las intervenciones humanas, a veces intencionadas, el resultado es el que ahora constatamos, una reiteración de las catástrofes, que no por el hecho de ser naturales resultan anómalas, por la corta periodicidad con que se producen, y sobre todo por la gran magnitud de sus efectos. [708 chars]

Source Reference Table

TitleYearTypeURL
MuPLeR: Multilingual Parallel Legal Retrievaldataset cardhttps://huggingface.co/datasets/mteb/MuPLeR-retrieval
An overview of the European Union's highly multilingual parallel corpora2014source paperhttps://link.springer.com/article/10.1007/s10579-014-9277-0
DGT-Acquissource corpushttps://joint-research-centre.ec.europa.eu/language-technology-resources/dgt-acquis_en

Dataset Information

FieldValue
Nano setNanoMuPLeR
Backing datasetNanoMuPLeR
Task / splites
Hugging Face datasethakari-bench/NanoMuPLeR
Languagees
Categorynatural_language
Queries200
Documents10,000
Positive qrels200
Positives / query avg1.00
Positives / query min1
Positives / query median1.00
Positives / query max1
Multi-positive queries0 (0.00%)
Query length avg chars134.67
Document length avg chars734.58

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.83020.90500.9700top-500
Denseharrier_oss_v1_270m0.88030.95500.9850top-500
Reranking hybridreranking_hybrid0.88620.95001.0000top-100