MNanoBEIR / NanoBEIR-sv / NanoArguAna

Overview

NanoArguAna in the Swedish NanoBEIR slice is an argument-counterargument retrieval task derived from ArguAna. The queries and documents are Swedish translated argumentative passages, and each query has a paired relevant passage that responds to it. The benchmark measures whether a retriever can identify argumentative relation and response fit between long texts, rather than simply matching topics. It is a compact but demanding diagnostic for stance-aware and discourse-aware multilingual retrieval.

Details

What the Original Data Measures

ArguAna is used in BEIR as an argument retrieval benchmark where relevance depends on the relationship between an argument and a counterargument. The relevant document often discusses the same issue but takes a different position, responds to a specific premise, or challenges the reasoning in the query. This makes the task harder than retrieving a document on the same topic.

In the Swedish translated version, both queries and documents are long argumentative passages. The model must compare claims, reasons, stance, and response structure across translated text. Lexical overlap can be helpful because the paired texts often discuss the same topic, but too much reliance on overlap can retrieve same-topic distractors that do not actually answer or counter the argument.

Observed Data Profile

The task contains 50 queries, 3,635 documents, and 50 relevance judgments. Every query has exactly one positive document: the average, minimum, median, and maximum positives per query are all 1.0, and there are no multi-positive queries. This makes the benchmark a precise single-target retrieval task.

The text units are long. Queries average 1,096.22 characters, and documents average 1,006.23 characters. Unlike short-query passage retrieval, both sides contain substantial argumentative context. A strong model must use the whole passage structure, not just a few shared topic words.

BM25 Evaluation Profile

BM25 reaches nDCG@10 of 0.3185, hit@10 of 0.5600, and recall@100 of 0.8600 using the top-500 BM25 candidate subset. This profile shows that lexical overlap is useful for candidate generation: the relevant counterargument is usually somewhere in the first 100 ranks. However, BM25 is much weaker at placing the paired response in the top 10.

The gap between recall@100 and top-10 quality reflects the nature of ArguAna. Many distractors may share the same topic vocabulary, especially in long debate passages. BM25 can locate the debate area, but it does not model stance, rebuttal structure, or whether the passage responds to the query's specific claim.

Dense Evaluation Profile

The dense harrier-oss-270m run reaches nDCG@10 of 0.4108, hit@10 of 0.7600, and recall@100 of 0.9400. Dense retrieval is clearly stronger than BM25 in top-rank quality and candidate coverage. This indicates that embedding similarity captures response fit and argumentative relatedness better than exact term matching alone.

The dense advantage is important because the task is long-text and discourse-heavy. The relevant passage may not be the document with the most repeated words; it may be the one that challenges the premise or addresses the same argument from the opposite side. Dense retrieval appears better aligned with this kind of semantic and pragmatic relation, though the single-positive format still leaves little room for partial credit when a near miss is ranked high.

Reranking Hybrid Evaluation Profile

The reranking_hybrid candidate set reaches nDCG@10 of 0.3784, hit@10 of 0.7200, and recall@100 of 0.9600. It uses a top-100 candidate range with an optional rank-101 safeguard; the observed candidate count ranges from 100 to 101, with 2 safeguard rows and a mean of 100.04 candidates. The hybrid pool has the best recall@100, while dense retrieval has the best top-10 ranking.

This means hybrid search improves coverage by combining lexical and dense evidence, but its first-stage ordering is not as strong as dense retrieval alone. For Swedish ArguAna, the relevant document is often present in the hybrid candidate pool, making it useful for reranking. The top rank, however, benefits from the denser semantic signal that better reflects argument-response relation.

Metric Interpretation for Model Researchers

Because there is exactly one positive per query, hit@10 and nDCG@10 are closely tied to whether the model places the paired response in a usable position. recall@100 is a candidate-generation measure: it tells whether a later reranker has a chance to recover the positive. A model can have high recall@100 and still feel poor in direct search if many same-topic distractors appear above the true response.

The pattern across methods is instructive. BM25 is a useful lexical candidate generator but weak at response ranking. Dense retrieval is strongest for immediate ranking quality. reranking_hybrid provides the broadest candidate coverage. This makes the task valuable for evaluating whether a system's second stage can exploit a high-recall candidate set.

Query and Relevance Type Tendencies

Queries are long arguments about topics such as public indifference to reform, Heathrow expansion, choice overload and happiness, cyberattacks by non-state actors, and the tension between religion, hate speech, and free expression. Positives are response passages that often challenge, qualify, or counter the original argument.

The task therefore requires more than topic detection. A relevant passage may share the same policy issue but differ in stance or address a specific premise. Models need to capture claim structure, argument target, and discourse relation. Long translated Swedish passages also create opportunities for retrieval systems to over-focus on repeated nouns while ignoring the argumentative role of the text.

Representative Failure Modes

Likely failures include retrieving a passage on the same debate topic that does not answer the query, confusing supportive and counterargument relations, overvaluing repeated policy vocabulary, and missing the paired response when it uses different framing. Dense models may sometimes retrieve semantically close but stance-mismatched passages, while BM25 may rank long same-topic distractors above the true counterargument.

Training Data That May Help

Useful training data includes argument-counterargument pairs, stance-aware retrieval data, debate passage ranking, multilingual argument mining, and hard negatives from the same topic with different stance or response targets. Swedish argumentative data can help with discourse markers and translation-specific phrasing. For rerankers, the most useful negatives are passages that are topically close but fail to respond to the query's specific claim.

Model Improvement Notes

A model targeting this task should improve response-relation modeling for long argumentative text. Dense retrievers are the best starting point, but they need hard-negative training against same-topic non-responses. Sparse systems need more than token overlap, possibly using stance-aware expansion or passage segmentation. Hybrid systems should use their strong recall as a candidate source, then rely on a reranker that can compare claim, stance, and counterargument structure.

Example Data

Query	Positive document
Allmänheten är likgiltig inför reformer. Om reform av Overhuset bör vara en högsta prioritet i den nuvarande ekonomiska situationen är omdiskuterat, tala om om en koalitionsregering skulle kunna initiera och genomföra sådana åtgärder. Försök att reformera Overhuset har skjutits upp gång på gång, vilket visar Underhuset's tveksamhet inför förändringar. En känsla som utan tvekan återspeglas i den allmänna brittiska opinionen – som visades av resultatet av den senaste omröstningen om alternativ rös... [500 / 586 chars]	AV-kampanjen kan inte jämföras med reformer av överhuset. Man bör inte förväxla en missinformerad allmänhet på grund av politisk retorik med likgiltighet. Ofta uttrycker väljare att de är likgiltiga eftersom de känner att de inte kan förändra något, att deras röster inte räknas. Reformer som säkerställer att de som styr landet är direkt valda av folket skulle hjälpa till att motverka dessa känslor. [401 chars]
Utbyggnaden av Heathrow är avgörande för ekonomin. En utbyggnad av Heathrow skulle säkra många befintliga jobb samt skapa nya. För närvarande stöder Heathrow cirka 250 000 jobb. Till detta kommer hundratusentals fler som är beroende av turismnäringen i London, som i sin tur är beroende av bra transportförbindelser som Heathrow. Att förlora konkurrenskraft gentemot andra europeiska flygplatser skulle inte bara innebära att möjligheten att skapa nya jobb går förlorad, utan också att befintliga job... [500 / 1,246 chars]	Affärsvärlden är långt ifrån enad i sitt påstådda stöd för en tredje start- och landningsbana. Undersökningar tyder på att många inflytelserika företag faktiskt inte stöder expansionen. Ett brev som uttryckte oro undertecknades av Justin King, VD för J Sainsbury, och James Murdoch från BskyB. [1] Att därför sammanblanda affärsvärlden till en enda röst som kräver expansion är missvisande. Vi bör också komma ihåg, när vi överväger alternativ till Heathrows nya start- och landningsbana, såsom en ny bana på ett annat Londonflygplats eller en helt ny flygplats, att dessa sannolikt skulle ha en liknande ekonomisk påverkan som Heathrow-utbyggnaden. Om det är anslutningarna som är viktiga för att locka till sig affärer och turister, så länge anslutningen är till London spelar det ingen roll från vilken flygplats anslutningen kommer. Det kan till och med finnas mindre behov av att flygplatsen ska vara en hubb om vi fokuserar på fördelarna för London, som Bob Ayling, tidigare VD för British Airw... [1,000 / 1,407 chars]
Människor får för många valmöjligheter, vilket gör dem mindre lyckliga. Reklam gör att många människor känner sig överväldigade av det oändliga behovet att välja mellan konkurrerande krav på deras uppmärksamhet – detta kallas valtyranni eller valöverbelastning. Senaste forskningen visar att människor i genomsnitt är mindre lyckliga än för 30 år sedan – trots att de har det bättre och har mycket fler val att spendera sina pengar på. Reklamens påståenden tränger på människor, höjer förväntningarna... [500 / 910 chars]	Människor är missnöjda för att de inte kan ha allt, inte för att de får för många val och tycker att det är stressande. Faktum är att reklam spelar en avgörande roll för att se till att människor använder sina pengar på det mest lämpliga produkten för sig själva. Om reklam inte var tillåtet, skulle människor slösa pengar på ett första produkt när de, om de hade valet, tydligt skulle välja en annan. En meta-analys som inkluderade forskning från 50 oberoende studier fann ingen meningsfull koppling mellan val och ångest, men spekulerade i att variationen i studierna lämnade öppet för möjligheten att valöverflöd kunde vara kopplat till vissa mycket specifika och ännu dåligt förstådda förutsättningar. Scheibehenne, Benjamin; Greifeneder, R. & Todd, P. M. (2010). 'Kan det någonsin finnas för många alternativ? En meta-analytisk översikt över valöverflöd'. Journal of Consumer Research 37: 409-425. [902 chars]

Source Reference Table

Item	Reference
Original dataset	ArguAna
Retrieval benchmark framing	BEIR
Multilingual benchmark context	MMTEB
NanoBEIR collection	NanoBEIR on Hugging Face
NanoBEIR-sv dataset	hakari-bench/NanoBEIR-sv

Representative query and positive response snippets:

Query	Positive document snippet
Allmänheten är likgiltig inför reformer. Om reform av Overhuset bör vara en högsta prioritet...	AV-kampanjen kan inte jämföras med reformer av överhuset. Man bör inte förväxla en missinformerad allmänhet...
Utbyggnaden av Heathrow är avgörande för ekonomin. En utbyggnad av Heathrow skulle säkra många befintliga jobb...	Affärsvärlden är långt ifrån enad i sitt påstådda stöd för en tredje start- och landningsbana...
Människor får för många valmöjligheter, vilket gör dem mindre lyckliga.	Människor är missnöjda för att de inte kan ha allt, inte för att de får för många val...
Cyberattacker utförs ofta av icke-statliga aktörer, såsom cyberterrorister eller hacktivister...	Vid attacker från icke-statliga aktörer är det en allmän uppfattning bland praktiker inom internationell rätt...
Eftersom religion främjar säkerhet i tro, är gudomligt inspirerad hat lätt att använda för att rättfärdiga...	Ingen tvingas utföra våldshandlingar på grund av andras ord; det är deras eget val...

Dataset Information

Field	Value
Nano set	MNanoBEIR
Backing dataset	NanoBEIR-sv
Task / split	NanoArguAna
Hugging Face dataset	hakari-bench/NanoBEIR-sv
Language	sv
Category	natural_language
Queries	50
Documents	3,635
Positive qrels	50
Positives / query avg	1.00
Positives / query min	1
Positives / query median	1.00
Positives / query max	1
Multi-positive queries	0 (0.00%)
Query length avg chars	1,096.22
Document length avg chars	1,006.23

Candidate Subsets

Profile	Config	nDCG@10	Hit@10	Recall@100	Candidates
BM25	`bm25`	0.3185	0.5600	0.8600	top-500
Dense	`harrier_oss_v1_270m`	0.4108	0.7600	0.9400	top-500
Reranking hybrid	`reranking_hybrid`	0.3784	0.7200	0.9600	top-100