HAKARI-Bench

MNanoBEIR / NanoBEIR-de / NanoArguAna

Overview

NanoBEIR-de / NanoArguAna is the German NanoBEIR version of ArguAna, an argument retrieval benchmark where the query is a long argument and the relevant document is its best counterargument. The original task is introduced in Retrieval of the Best Counterargument without Prior Topic Knowledge. This Nano task contains 50 German translated query arguments, 3,635 German translated candidate arguments, and exactly one positive counterargument per query. Both queries and documents are long, averaging more than 1,100 characters. The task tests whether a retriever can identify stance opposition and argumentative fit, not just topical similarity. Dense retrieval is the strongest top-rank signal, while reranking_hybrid gives the best top-100 candidate coverage.

Details

What the Original Data Measures

ArguAna frames retrieval as finding a counterargument that addresses the same controversial issue and aspect as the query argument while taking the opposite stance. The important relation is rebuttal or counterargumentation. A document that discusses the same topic but supports the same side is not the target.

The German NanoBEIR version keeps that objective in translated form. The input is a long German argument with claims, premises, examples, and sometimes citations. The relevant document is a German counterargument that contests the same issue. This makes the task useful for evaluating long-document embeddings and stance-aware retrieval.

Observed Data Profile

The metadata records 50 queries, 3,635 documents, and 50 positive qrels. Every query has exactly one positive. Query text averages 1,243.08 characters, and document text averages 1,142.27 characters. Examples cover House of Lords reform, Heathrow expansion, choice overload, cyber attacks by non-state actors, religious speech, gender roles, economic outcomes, reparations, Syria, and free higher education.

The long text shape gives the model many topical cues, but it also creates many distractors. A same-topic passage may share vocabulary with the query while arguing for the wrong side. The retrieval target is the argumentative move: which document best counters the query's reasoning.

BM25 Evaluation Profile

The BM25 candidate subset reaches nDCG@10 = 0.3453, hit@10 = 0.5600, and Recall@100 = 0.9200. BM25 can identify the debate neighborhood because long arguments repeat issue terms, named entities, policy words, and evidence phrases. It is useful for preserving topic anchors in very long German text.

BM25's weakness is stance and rebuttal selection. Counterarguments and supporting arguments often share the same vocabulary, so sparse matching can rank a same-side argument above the true counterargument. It can also overweight long passages with many shared policy terms while missing the specific premise being attacked.

Dense Evaluation Profile

The dense candidate subset from harrier_oss_v1_270m reaches nDCG@10 = 0.4738, hit@10 = 0.8200, and Recall@100 = 0.9600. Dense retrieval is clearly stronger than BM25 for top-rank ordering. This suggests that embedding similarity captures aspect-level argumentative relatedness better than term overlap alone.

Dense retrieval can still confuse topical similarity with opposition. It may rank a semantically close argument that discusses the same controversy but does not rebut the query. Still, the dense profile indicates that semantic representations are essential for German ArguAna.

Reranking Hybrid Evaluation Profile

The reranking_hybrid candidate subset reaches nDCG@10 = 0.4422, hit@10 = 0.7400, and Recall@100 = 0.9800. Hybrid is not the best top-rank sorter because dense has higher nDCG@10 and hit@10, but it is the safest candidate pool. The metadata records one row with the optional rank-101 safeguard, and the top-100 coverage is the best among the three candidate views.

For reranker experiments, hybrid is valuable because it combines BM25's topic anchors with dense candidates that better match argumentative relation. The reranker can then focus on stance opposition and rebuttal quality.

Metric Interpretation for Model Researchers

This task separates top-rank counterargument selection from candidate coverage. Dense retrieval is the strongest direct retriever, showing that long German argument retrieval needs semantic structure beyond word overlap. Hybrid gives the best Recall@100, which matters for reranking because the true counterargument must first be present in the candidate pool.

A model that improves lexical recall but not nDCG@10 may retrieve the right topic without selecting the counterargument. A model that improves nDCG@10 should be checked for stance sensitivity, not just semantic closeness.

Query and Relevance Type Tendencies

Queries are long German debate arguments. Relevant documents are long counterarguments that address the same issue and aspect from the opposite stance. The examples show public-policy, social, economic, legal, and international-relations debates. Many passages include evidence lists or citations, so surface overlap is common even among wrong candidates.

Lexical-heavy cases involve named policies, institutions, places, or political terms. Dense-heavy cases involve opposing arguments that phrase the rebuttal differently. Hybrid retrieval is useful when topic anchoring and stance-aware semantic matching are both needed.

Representative Failure Modes

BM25 can retrieve same-topic same-stance documents because they share issue vocabulary. Dense retrieval can retrieve a semantically close argument that does not actually rebut the query. Both can miss the specific aspect under debate, such as economic consequence, moral principle, legal feasibility, or empirical evidence. Good hard negatives are same-topic arguments with the wrong stance or arguments that attack a different premise.

German-Specific Notes

German argument retrieval involves long compound-rich text, translated debate style, named institutions, policy vocabulary, and sentence structures that can bury the key claim. Sparse retrieval needs tokenization that handles compounds and preserves named entities. Dense retrieval needs robust long-text pooling so the core claim and rebuttal relation are not diluted by supporting detail.

Training and Leakage Notes

Training should exclude ArguAna, BEIR, or NanoBEIR records likely to overlap with these evaluation arguments. Useful non-overlapping data includes argument-counterargument pairs, stance-aware retrieval datasets, debate portal argument pairs, German or multilingual argument mining corpora, and hard negatives with the same topic but wrong stance.

Model Improvement Hints

The main improvement target is stance-aware semantic retrieval. First-stage retrievers should keep debate-topic anchors while ranking the actual counterargument above same-side passages. Rerankers should compare true counterarguments against same-topic wrong-stance negatives and learn which premise or conclusion is being rebutted.

Training Data That May Help

Useful training data includes non-overlapping argument-counterargument pairs, German debate data, multilingual stance retrieval, pro/con argument pairs, claim rebuttal datasets, and synthetic long arguments with explicit opposing stances.

Synthetic Data Guidance

Generate paired German pro and con arguments for controversial topics. Each pair should share the issue and aspect but reverse stance. Include premises, conclusion, evidence, and policy consequences. Positives should rebut the query argument; hard negatives should discuss the same topic while supporting the same side or attacking a different premise.

Example Data

QueryPositive document
Die Öffentlichkeit zeigt sich reformunwillig. Ob die Reform des Oberhauses in der aktuellen wirtschaftlichen Lage Priorität haben sollte, ist umstritten, ganz zu schweigen davon, ob eine Koalitionsregierung solche Maßnahmen überhaupt in die Wege leiten und durchsetzen könnte. Die Versuche, das Oberhaus zu reformieren, wurden immer wieder verschoben, was die Vorbehalte des Unterhauses gegenüber Veränderungen zeigt. Ein Gefühl, das zweifellos in der öffentlichen Meinung in Großbritannien widerhall... [500 / 666 chars]Die Wahlreform lässt sich nicht mit Reformen im House of Lords vergleichen. Zudem sollte man eine durch politische Rhetorik irreführte Öffentlichkeit nicht mit Gleichgültigkeit verwechseln. Oft geben Wähler an, gleichgültig zu sein, weil sie das Gefühl haben, dass sie nichts ändern können, dass ihre Stimme nicht zählt. Reformen, die sicherstellen, dass diejenigen, die das Land regieren, direkt vom Volk gewählt werden, könnten diesen Gefühlen entgegenwirken. [461 chars]
Der Ausbau von Heathrow ist für die Wirtschaft von entscheidender Bedeutung. Der Ausbau von Heathrow würde viele bestehende Arbeitsplätze sichern und gleichzeitig neue schaffen. Derzeit sichert Heathrow etwa 250.000 Arbeitsplätze. Darüber hinaus sind viele Hunderttausende weitere vom Tourismus in London abhängig, der auf gute Verkehrsanbindungen wie Heathrow angewiesen ist. Den Wettbewerbsvorteil gegenüber anderen europäischen Flughäfen zu verlieren, könnte nicht nur die Chance auf neue Arbeitsp... [500 / 1,355 chars]Die Geschäftswelt ist keineswegs einig in ihrer angeblichen Unterstützung für eine dritte Start- und Landebahn. Umfragen deuten darauf hin, dass viele einflussreiche Unternehmen die Erweiterung in Wirklichkeit nicht unterstützen. Ein Brief, der Bedenken ausdrückte, wurde von Justin King, dem Vorstandsvorsitzenden von J Sainsbury, und James Murdoch von BskyB unterzeichnet. [1] Es ist daher irreführend, die Geschäftswelt als eine Stimme darzustellen, die die Erweiterung fordert. Wir sollten auch bedenken, dass Alternativen zum neuen Start- und Landebahn von Heathrow, wie eine neue Bahn an einem anderen Londoner Flughafen oder ein komplett neuer Flughafen, wahrscheinlich eine ähnliche wirtschaftliche Auswirkung haben würden wie die Erweiterung von Heathrow. Wenn es auf die Verbindungen ankommt, um Geschäftsleute und Touristen anzulocken, spielt es keine Rolle, von welchem Flughafen die Verbindung kommt, solange sie nach London führt. Es könnte sogar weniger Bedarf an einem Hub-Flughafen g... [1,000 / 1,548 chars]
Menschen werden mit zu vielen Wahlmöglichkeiten konfrontiert, was sie unglücklicher macht. Werbung überfordert viele Menschen durch das endlose Bedürfnis, zwischen konkurrierenden Anforderungen an ihre Aufmerksamkeit zu entscheiden – dies wird als die Tyrannei der Wahlmöglichkeiten oder als Wahlüberlastung bezeichnet. Jüngste Forschungen deuten darauf hin, dass die Menschen im Durchschnitt weniger glücklich sind als vor 30 Jahren, obwohl sie besser dran sind und viel mehr Auswahl an Dingen haben... [500 / 1,218 chars]Menschen sind unzufrieden, weil sie nicht alles haben können, nicht weil sie zu viele Wahlmöglichkeiten haben und sich dadurch gestresst fühlen. Tatsächlich spielen Werbeanzeigen eine entscheidende Rolle dabei, dass Menschen ihr Geld für das für sie passendste Produkt ausgeben. Wenn Werbung nicht erlaubt wäre, würden die Menschen ihr Geld für ein erstes Produkt verschwenden, obwohl sie sich bei der Wahl klar für ein anderes entscheiden würden. Eine Meta-Analyse, die Forschungsergebnisse aus 50 unabhängigen Studien einbezog, fand keinen bedeutsamen Zusammenhang zwischen Wahlmöglichkeiten und Angst, spekulierte jedoch, dass die Unterschiede in den Studien die Möglichkeit offen lassen, dass eine Überforderung durch zu viele Wahlmöglichkeiten mit bestimmten, bisher noch wenig verstandenen, hochspezifischen Voraussetzungen zusammenhängen könnte. 1 Scheibehenne, Benjamin; Greifeneder, R. & Todd, P. M. (2010). "Can There Ever be Too Many Options? A Meta-Analytic Review of Choice Overload". Jo... [1,000 / 1,040 chars]

Source Reference Table

TitleYearTypeURL
Retrieval of the Best Counterargument without Prior Topic Knowledge2018task paperhttps://aclanthology.org/P18-1023/
BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models2021benchmark paperhttps://arxiv.org/abs/2104.08663
MMTEB: Massive Multilingual Text Embedding Benchmark2025benchmark paperhttps://arxiv.org/abs/2502.13595
NanoBEIR: Smaller BEIR dataset subsets2024dataset collectionhttps://huggingface.co/collections/zeta-alpha-ai/nanobeir

Dataset Information

FieldValue
Nano setMNanoBEIR
Backing datasetNanoBEIR-de
Task / splitNanoArguAna
Hugging Face datasethakari-bench/NanoBEIR-de
Languagede
Categorynatural_language
Queries50
Documents3,635
Positive qrels50
Positives / query avg1.00
Positives / query min1
Positives / query median1.00
Positives / query max1
Multi-positive queries0 (0.00%)
Query length avg chars1,243.08
Document length avg chars1,142.27

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.34530.56000.9200top-500
Denseharrier_oss_v1_270m0.47380.82000.9600top-500
Reranking hybridreranking_hybrid0.44220.74000.9800top-100

Training and Leakage Metadata