HAKARI-Bench

NanoLaw / NanoGerDaLIRSmall

Overview

NanoLaw / NanoGerDaLIRSmall is a German legal information retrieval task based on GerDaLIR. Queries are German legal passages, and documents are German court decisions. The retrieval goal is to identify the cited or substantively linked decision for a legal reasoning passage. The Nano split has 200 queries, 9,969 documents, and 235 positive qrel rows. Most queries have one positive, but 29 queries have multiple positives. Current diagnostics show a strongly lexical legal retrieval profile: BM25 is the best top-10 ranker, reranking_hybrid improves over dense and slightly improves recall@100 over BM25, while dense retrieval alone is much weaker.

Details

What the Original Data Measures

The GerDaLIR paper introduces a German legal IR dataset built from Open Legal Data. It constructs query-document relevance from legal passages that cite known documents in the collection, and it emphasizes passage queries as a realistic form of legal research. The MTEB GerDaLIRSmall card describes a smaller evaluation corpus that keeps documents with corresponding queries.

The task measures passage-to-case retrieval. A query is not a short keyword request; it is a legal reasoning passage that may contain statutes, doctrinal phrases, anonymized dates, reference markers, and citation-like cues. The target is a full German court decision, often much longer than the passage.

Observed Data Profile

The Nano split contains 200 queries, 9,969 documents, and 235 positive qrel rows. Positives per query average 1.175, with a minimum of 1, a median of 1, and a maximum of 4. Multi-positive queries account for 14.5 percent of the task. Query passages average 889.88 characters, while documents average 19,706.82 characters.

Observed texts include German legal reasoning, tenor sections, administrative and constitutional-law language, tax and labor disputes, asylum-related decisions, and civil-law passages. The data also contains anonymized placeholders such as [DATE] and [REF]. This gives the benchmark a distinctive legal and documentary texture: formulas, procedural terms, and citation patterns are part of the retrieval signal.

BM25 Evaluation Profile

The dataset-provided BM25 candidate subset contains 500 candidates per query and achieves nDCG@10 = 0.5911, hit@10 = 0.7550, and recall@100 = 0.8426. BM25 is the strongest observed top-10 ranker. This indicates that exact German legal vocabulary, statutory references, court phrases, and citation-adjacent language are highly predictive in this task.

BM25's advantage also reflects the construction of GerDaLIR. If a query passage is linked to a cited decision, surface cues around the citation, legal issue, or statutory provision can overlap with the target judgment. The challenge is not absent lexical evidence, but distinguishing the correct decision from other long judgments that share the same legal domain.

Dense Evaluation Profile

The dense harrier_oss_v1_270m candidate subset contains 500 candidates per query and achieves nDCG@10 = 0.2405, hit@10 = 0.3850, and recall@100 = 0.6170. Dense retrieval is much weaker than BM25. The gap suggests that the dense model does not preserve enough German legal surface detail, citation structure, or long-document specificity for this benchmark.

Dense similarity may find decisions in the same broad legal area, but that is not enough. The relevant document is often a particular cited or substantively linked case, and many decisions share doctrinal vocabulary. A dense retriever that smooths over statute references, procedural formulas, or court-specific language will rank related but wrong decisions too high.

Reranking Hybrid Evaluation Profile

The reranking_hybrid candidate subset contains 100 or 101 candidates per query, with 28 safeguard positive rows and a mean of 100.14 candidates. It achieves nDCG@10 = 0.4287, hit@10 = 0.6150, and recall@100 = 0.8553. Hybrid retrieval improves substantially over dense retrieval and gives slightly better top-100 coverage than BM25, but it does not match BM25's top-10 ranking.

This pattern indicates that dense evidence can broaden candidate coverage, but exact lexical matching remains the dominant early-ranking signal. For reranking experiments, the hybrid pool is useful because it preserves more positives, yet a final model must still learn to respect German legal terms, reference markers, and citation-like phrasing.

Metric Interpretation for Model Researchers

This task is mostly single-positive but includes some multi-positive queries. Hit@10 measures whether at least one relevant decision appears in the first ten results. nDCG@10 rewards placing relevant decisions high, and recall@100 measures how much of the positive set remains available for reranking.

The metric pattern is clear: BM25 is the best final candidate ordering among the observed profiles, hybrid is best for top-100 coverage, and dense retrieval alone is weak. This makes NanoGerDaLIRSmall a strong diagnostic for whether a model preserves legal surface form and citation-oriented evidence in German.

Query and Relevance Type Tendencies

Queries are medium-length German legal passages, often taken from reasoning contexts. They contain doctrinal statements, statute references, procedural language, and anonymized references. Relevant documents are full court decisions with tenor, facts, and reasons.

The retrieval relation is closer to citation or legal support retrieval than to general semantic search. The model must find the case document that the passage points to or substantively depends on. This favors systems that combine exact legal vocabulary with document-level legal relevance.

Representative Failure Modes

BM25 can fail when many decisions share the same statutory provisions, court terms, or procedural formulas. Dense retrieval can fail more broadly by finding same-domain legal decisions that are semantically related but not the cited or linked case. Hybrid retrieval can keep both the positive and close negatives, leaving a hard reranking problem.

Long documents add another difficulty. The relevant cue may correspond to a small part of a judgment, while the rest of the decision covers broader facts and reasoning. Single-vector document representations may not capture that specific link.

Training Data That May Help

Useful training data includes German legal citation retrieval, passage-to-case retrieval pairs, German court decision corpora, and hard negatives from cases sharing the same statute, court, or legal domain. Training should include long documents and passage-level queries rather than only short legal keywords.

For comparable evaluation, training should exclude NanoGerDaLIRSmall queries, qrels, and target German case documents. Synthetic data can help when it generates German legal passages with citation cues and pairs them with full judgments, while using same-statute cases as hard negatives.

Model Improvement Notes

Dense retrievers need stronger German legal-domain representations and better retention of citation-like details, placeholders, statutory references, and procedural formulas. Sparse systems benefit from careful German legal tokenization and weighting of section references and legal compounds. Rerankers should inspect whether the candidate decision is the specific cited or supporting decision, not just whether it is topically similar.

For hybrid systems, this task argues for keeping BM25 as a primary component. Dense evidence can improve coverage, but top-rank quality depends heavily on lexical and citation-oriented signals.

Example Data

QueryPositive document
Die Streitwertfestsetzung bzw. änderung beruht auf den §§ 0, 0 Abs. 0 und 0, 0 Abs. 0 Satz 0 Nr. 0 i.V.m. 0 Abs. 0 GKG. Für Verfahren, die den Übergang von einer Teilzeitbeschäftigung auf Vollzeitbeschäftigung des Beamten betreffen, sind die Grundsätze für den Teilstatus anzuwenden. Danach ist der Streitwert in Anwendung des [REF] entsprechend der Höhe des zweifachen Jahresbetrags der Besoldungsdifferenz zwischen dem innegehabten und dem erstrebten Teilstatus zu bemessen. [476 chars]Tenor Der Antrag wird abgelehnt. Der Kläger trägt die Kosten des Zulassungsverfah-rens. Der Streitwert wird unter Abänderung der Streitwertfestsetzung des Verwaltungsgerichts für beide Rechtszüge jeweils auf bis zu 0 EUR festgesetzt. Aus den innerhalb der Begründungsfrist des § 0a Abs. 0 Satz 0 VwGO vorgetragenen Gründen ergeben sich die behaupteten ernstlichen Zweifel an der Richtigkeit des angefochtenen Urteils nicht. Stützt der Rechtsmittelführer seinen Zulassungsantrag auf den Zulassungsgrund der ernstlichen Zweifel im Sinne des [REF] , muss er sich mit den entscheidungstragenden Annahmen des Verwaltungsgerichts auseinandersetzen. Dabei muss er den tragenden Rechtssatz oder die Feststellungen tatsächlicher Art bezeichnen, die er mit seinem Antrag angreifen will, und mit schlüssigen Gegenargumenten in Frage stellen. Es reicht hingegen nicht aus, wenn er pauschal die Unrichtigkeit der Entscheidung des Verwaltungsgerichts behauptet oder wenn er lediglich sein Vorbringen erster Instanz... [1,000 / 7,138 chars]
Das Regierungspräsidium hat die Anordnung des Sofortvollzugs in einer den Anforderungen des [REF] genügenden Weise begründet. Das formale Erfordernis einer schriftlichen Begründung des besonderen Interesses an der sofortigen Vollziehung verlangt eine auf die Umstände des konkreten Falles bezogene Darlegung des besonderen Interesses gerade an der sofortigen Vollziehbarkeit des Verwaltungsakts. Insbesondere muss die Vollziehbarkeitsanordnung erkennen lassen, dass sich die Behörde des rechtlichen A... [500 / 1,266 chars]Tenor Auf die Beschwerde des Antragsgegners wird der Beschluss des Verwaltungsgerichts Freiburg vom [DATE] [REF] geändert.Der Antrag des Antragstellers auf Wiederherstellung bzw. Anordnung der aufschiebenden Wirkung seines Widerspruchs gegen den Bescheid des Landratsamts Waldshut vom [DATE] wird abgelehnt.Der Antragsteller trägt die Kosten des Verfahrens beider Rechtszüge.Der Streitwert wird für beide Rechtszüge auf je 0, EUR festgesetzt. Gründe 0 Das Verwaltungsgericht hat dem Antrag auf vorläufigen Rechtsschutz zu Unrecht stattgegeben. Die Anordnung der sofortigen Vollziehung der Fahrerlaubnisentziehung begegnet weder formell-rechtlich noch, wie vom Verwaltungsgericht angenommen und vom Antragsgegner substantiiert mit der Beschwerde angegriffen, materiell-rechtlich durchgreifenden rechtlichen Bedenken. 0 Entgegen der im erstinstanzlichen Verfahren erhobenen Rüge des Antragstellers genügt die Begründung für die Anordnung der sofortigen Vollziehung im Bescheid des Antragsgegners vom [D... [1,000 / 16,218 chars]
Die Entscheidung des Landgerichts, die Beklagte zur Erteilung der Auskunft durch Vorlage eines notariellen Nachlassverzeichnisses und nicht nur zu dessen Ergänzung zu verurteilen, begegnet ebenfalls keinen Bedenken. Wegen der nicht nur geringfügigen Unvollständigkeiten und teilweise offensichtlich unterbliebenen eigenen Ermittlungstätigkeit des Streithelfers stellt das vorgelegte notarielle Nachlassverzeichnis vom [DATE] keine Erfüllung, auch keine Teilerfüllung, dar. Zu einer teilweisen Erfüllu... [500 / 1,431 chars]Tenor Die Rechtsbeschwerde gegen den Beschluss des 0. Familiensenats in Freiburg des Oberlandesgerichts Karlsruhe vom [DATE] wird auf Kosten des Antragsgegners zurückgewiesen. Von Rechts wegen Gründe I. Die beteiligten Ehegatten streiten in erster Stufe eines auf Trennungsunterhalt gerichteten Verfahrens über den Umfang der unterhaltsrechtlichen Auskunftspflicht des Antragsgegners. Die Antragstellerin begehrt Auskunft über das Einkommen des Antragsgegners in den Jahren [DATE] bis [DATE] . Das Familiengericht hat den Ehemann durch Teilbeschluss verpflichtet, Auskunft über seine sämtlichen Einkünfte nach jeweiliger Einkommensart in den Jahren [DATE] , [DATE] und [DATE] in Form einer systematischen Zusammenstellung zu erteilen. Mit seiner hiergegen eingelegten Beschwerde hat der Ehemann geltend gemacht, die Auskunft bereits genügend erteilt zu haben, während die Ehefrau in der Beschwerdeinstanz auf eine Konkretisierung der Beschlussformel angetragen hat. Das Oberlandesgericht hat die Besc... [1,000 / 11,013 chars]

Source Reference Table

TitleYearTypeURL
GerDaLIR: A German Dataset for Legal Information Retrieval2021ACL paperhttps://aclanthology.org/2021.nllp-1.13/
GerDaLIR2021GitHub repositoryhttps://github.com/lavis-nlp/GerDaLIR

Dataset Information

FieldValue
Nano setNanoLaw
Backing datasetNanoLaw
Task / splitNanoGerDaLIRSmall
Hugging Face datasethakari-bench/NanoLaw
Languagede
Categorynatural_language
Queries200
Documents9,969
Positive qrels235
Positives / query avg1.18
Positives / query min1
Positives / query median1.00
Positives / query max4
Multi-positive queries29 (14.50%)
Query length avg chars889.88
Document length avg chars19,706.82

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.59110.75500.8426top-500
Denseharrier_oss_v1_270m0.24050.38500.6170top-500
Reranking hybridreranking_hybrid0.42870.61500.8553top-100

Training and Leakage Metadata