HAKARI-Bench

NanoMTEB-Misc / fi

Overview

fi is the Finnish EuroPIRQ retrieval split. Queries are synthetic Finnish questions, and documents are Finnish passages derived from DGT-Acquis paragraph-level European Union legal and administrative text. The Nano split contains 100 queries, 9,422 documents, and 100 positive qrels, with exactly one positive passage per query. Queries average 146.53 characters, and documents average 594.55 characters. The task tests Finnish retrieval over formal EU institutional language, where exact legal terms, inflected forms, directive numbers, and institutional names all affect passage selection.

Details

What the Original Data Measures

The EuroPIRQ dataset card describes a retrieval dataset built from DGT-Acquis paragraph-level text. It extracts, cleans, language-validates, aligns English, Finnish, and Portuguese chunks, and generates 100 synthetic questions per language. No standalone EuroPIRQ task paper was confirmed; this description is based on the dataset card and MTEB/MMTEB benchmark context.

In the Finnish split, the model must retrieve the source Finnish passage for a synthetic question about EU law, administration, committees, courts, or policy. The source language and formal register make morphology and legal boilerplate important.

Observed Data Profile

The split has 100 Finnish queries, 9,422 documents, and 100 positive judgments. Every query has one positive. Questions are long and specific, often naming EU institutions, directives, offices, or legal mechanisms. Documents are formal Finnish passages with dense administrative and legal wording.

Examples ask about data-protection reasoning, the role of ECoB, health and safety of pregnant and breastfeeding mothers, maritime governance, and Directive 98/37/EC machinery safety obligations.

BM25 Evaluation Profile

BM25 is strongest, with nDCG@10 of 0.9092, hit@10 of 0.9500, and recall@100 of 0.9900. Synthetic questions often retain distinctive terms from the positive passage, and BM25 benefits from legal entities, directive numbers, and institutional phrases.

Finnish morphology makes this slightly harder than the English split. Inflected forms and legal phrase variation can reduce exact overlap, but the lexical signal remains dominant.

Dense Evaluation Profile

Dense retrieval reaches nDCG@10 of 0.8542, hit@10 of 0.9200, and recall@100 of 0.9300. It handles many semantic matches but loses some candidates that BM25 recovers through exact legal wording. This indicates that the dense model can represent Finnish EU-domain meaning, but may not preserve enough specific surface detail for near-ceiling performance.

Dense errors are likely to involve near-duplicate legal passages or passages with similar institutional framing.

Reranking Hybrid Evaluation Profile

The reranking_hybrid profile reaches nDCG@10 of 0.8813, hit@10 of 0.9300, and recall@100 of 1.0000. It has complete top-100 coverage, but its top-10 ordering remains below BM25. There are no safeguard-positive rows.

Hybrid search is therefore a strong candidate-generation option: it recovers the positive for every query by rank 100, while still relying on a reranker to match BM25's early precision.

Metric Interpretation for Model Researchers

fi is BM25-favorable at top-10, with hybrid search best for recall. The task is near ceiling for lexical retrieval, so the main diagnostic is whether dense or hybrid systems preserve exact Finnish legal references and formal wording. Since every query has one positive, nDCG@10 directly reflects rank of the source passage.

This split is useful for Finnish legal-domain precision and regression testing rather than broad semantic difficulty.

Query and Relevance Type Tendencies

Queries are Finnish synthetic questions about EU legal and administrative passages. Positive documents are formal passages from DGT-Acquis-derived content. Many queries include exact institutional names, directive numbers, or specialized legal concepts.

Relevance is source-passage identity. Similar EU boilerplate can create hard negatives if it does not answer the generated question.

Representative Failure Modes

BM25 can confuse passages with similar directive numbers or repeated EU legal phrases. Dense retrieval can rank semantically similar legal text that lacks the specific condition asked in the question. Hybrid retrieval improves coverage but can still rank near-duplicate legal passages above the target.

Finnish inflection and compound terminology are additional sources of lexical and embedding mismatch.

Training Data That May Help

Useful training data includes Finnish legal retrieval pairs, multilingual EU parallel corpora, DGT-Acquis-style passage pairs, and synthetic question-passage training. Hard negatives should come from similar EU committee, court, and directive passages. Training should exclude EuroPIRQ evaluation questions and positive passages overlapping this Nano split.

Synthetic data should mix surface-overlap questions with paraphrased questions that require semantic matching across Finnish inflected forms.

Model Improvement Notes

Models should preserve Finnish legal entities, directive numbers, and morphological variants. Dense encoders can improve through Finnish legal hard negatives. Rerankers should compare the asked legal condition against the exact passage details.

Example Data

QueryPositive document
Mikä on tietosuojavaltuutetun perustelu sille, että tietojen tallentamistoimenpiteiden tarkempi tutkiminen on perusteltua? [122 chars]Tietosuojavaltuutettu myöntää, että käytettävissä on vähemmän tietoja, jos käytössä on tietojen tallentamisen kaltainen järjestelmä laajemman tietojen säilyttämisjärjestelmän sijasta. Tietojen tallentaminen on kuitenkin vähemmän yksityisyyteen puuttuva väline juuri siksi, että se on kohdennetumpi laajuutensa ja niiden ihmisten määrän osalta, joihin sen vaikutus kohdistuu. Arvioinnissa ei tulisi keskittyä pelkästään saatavilla oleviin tietoihin vaan myös molempien järjestelmien avulla saatuihin erilaisiin tuloksiin. Tietosuojavaltuutettu pitää tämän toimenpiteen tarkempaa tutkimista perusteltuna ja välttämättömänä. Se voitaisiin toteuttaa tulevina kuukausina tehtävän vaikutusten arvioinnin aikana. [705 chars]
Mikä rooli Eurooppalaisella viljelykasvien rinnakkaiselon toimistolla (ECo B) on kansallisten toimenpiteiden kehittämisessä muuntogeenisten organismien tahattoman esiintymisen estämiseksi tavanomaisen ja luonnonmukaisen tuotannon viljelykasvien seassa? [252 chars]COEX-NET-työryhmän kautta tapahtuvaa koordinointia ja Eurooppalaisen viljelykasvien rinnakkaiselon toimiston (ECo B) kautta annettavaa teknistä neuvontaa on tarkoitus jatkaa. ECo B pitää ajan tasalla olevaa luetteloa toimenpiteistä sekä luetteloa viljelyteknisistä, luontaisista sekä eri viljelykasveille ominaisista tekijöistä, jotka olisi otettava huomioon kehiteltäessä kansallisia toimenpiteitä muuntogeenisten organismien tahattoman esiintymisen välttämiseksi tavanomaisen ja luonnonmukaisen tuotannon viljelykasvien seassa. Jäsenvaltioiden olisi edelleen annettava panoksensa ECo Bin tekniseen työhön. [607 chars]
Miten ehdotus direktiiviksi yhdistää raskaana olevien ja imettävien äitien terveyden ja turvallisuuden työllisyyteen ja uramahdollisuuksiin? [140 chars]Käsillä olevan ehdotuksen pääasiallinen oikeusperusta on raskaana olevien ja imettävien äitien terveys ja turvallisuus. Terveys- ja turvallisuuskysymyksillä on kuitenkin looginen yhteys i) lasten oikeuteen asianmukaiseen hoitoon, ii) perhe- ja työelämän yhteensovittamiseen sekä iii) työllisyyteen ja uramahdollisuuksiin. Lisäksi Euroopan demografinen tilanne edellyttää syntyvyyden kasvua kannustavaa ja tukevaa politiikkaa. Ehdotetussa direktiivissä käsitellyt kysymykset eivät ole erillisiä. Ne on nähtävä osana monitahoista kokonaisuutta, kuten suosituksissa todetaan. [572 chars]

Source Reference Table

TitleYearTypeURL
EuroPIRQ-retrieval2025Dataset cardhttps://huggingface.co/datasets/eherra/EuroPIRQ-retrieval
MMTEB: Massive Multilingual Text Embedding Benchmark2025Benchmark paperhttps://arxiv.org/abs/2502.13595
MTEB: Massive Text Embedding Benchmark2022Benchmark paperhttps://arxiv.org/abs/2210.07316

Dataset Information

FieldValue
Nano setNanoMTEB-Misc
Backing datasetNanoMTEB-Misc
Task / splitfi
Hugging Face datasethakari-bench/NanoMTEB-Misc
Languagefi
Categorynatural_language
Queries100
Documents9,422
Positive qrels100
Positives / query avg1.00
Positives / query min1
Positives / query median1.00
Positives / query max1
Multi-positive queries0 (0.00%)
Query length avg chars146.53
Document length avg chars594.55

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.90920.95000.9900top-500
Denseharrier_oss_v1_270m0.85420.92000.9300top-500
Reranking hybridreranking_hybrid0.88130.93001.0000top-100