HAKARI-Bench

NanoFaMTEB-v2 / argu_ana_fa

Overview

argu_ana_fa is a Persian argument retrieval task in NanoFaMTEB-v2. The query is a paragraph-length argument or claim, and the positive document is a paired Persian argument from an ArguAna-style dataset. The retrieval relation is not simple paraphrase: the target is often an opposing, responding, or stance-related argument.

This task is useful for evaluating Persian semantic retrieval where topical overlap and stance relation must be separated. A model must recognize that two texts discuss the same issue while also capturing the argument relation between them. The task is harder than keyword search because opposing arguments may share vocabulary but differ in position and rhetorical framing.

Details

What the Original Data Measures

FaMTEB is a Persian text embedding benchmark modeled after MTEB. It includes retrieval datasets built from Persian data, translated resources, and synthetic or adapted datasets. argu_ana_fa uses a Persian ArguAna-style retrieval source from MCINext/arguana-fa-v2.

The original ArguAna task measures retrieval of a paired argumentative text. In this Persian version, the model must retrieve the correct related argument among many candidates. The relation often depends on topic, stance, and argumentative role rather than exact wording.

Observed Data Profile

This Nano split contains 199 queries, 8,669 documents, and 199 positive qrels. Every query has exactly one positive. Queries average 1,100.98 characters, and documents average 973.15 characters, so both sides are long Persian argument passages.

Observed examples discuss abortion policy, climate technology, vegetarianism and food safety, sports collisions, and community radio. The positive document generally shares the policy or social topic but may take a different stance or qualify the query's argument.

BM25 Evaluation Profile

BM25 reaches nDCG@10 of 0.2860, hit@10 of 0.6432, and recall@100 of 0.9347 with a top-500 candidate pool. Lexical overlap is useful because paired arguments often share domain words, named concepts, and issue-specific vocabulary.

BM25's limitation is ranking. Argument pairs can be topically similar without being the correct counterargument or response. A lexical system may retrieve texts about the same topic, such as climate policy or healthcare ethics, but miss the stance relation that defines the positive.

Dense Evaluation Profile

The dense harrier-oss-270m profile is strongest by top-rank metrics, with nDCG@10 of 0.3287, hit@10 of 0.7236, and recall@100 of 0.9397. Dense retrieval improves over BM25 by capturing discourse-level and semantic relatedness between arguments.

Dense similarity helps when the positive text uses different wording to address the same issue. It can connect an argument about a policy outcome to a response about feasibility, ethics, or social consequences. The improvement is meaningful but moderate, reflecting that stance-aware retrieval remains difficult.

Reranking Hybrid Evaluation Profile

The reranking_hybrid candidate subset reaches nDCG@10 of 0.3128, hit@10 of 0.6834, and recall@100 of 0.9598. It uses top-100 candidates with optional rank-101 safeguards; eight rows contain 101 candidates and eight safeguard-positive rows are recorded. Hybrid retrieval has the best recall@100, while dense retrieval has better top-10 ranking.

This pattern suggests that lexical and dense signals are complementary. BM25 contributes topic-specific vocabulary, and dense retrieval contributes argument-level similarity. A downstream reranker could benefit from the hybrid candidate pool, but final ranking needs stance-sensitive reasoning.

Metric Interpretation for Model Researchers

argu_ana_fa is a dense-favored Persian argument retrieval task with strong lexical candidate coverage. The high recall@100 across all systems means the positive is often in the candidate pool, but nDCG@10 remains modest. The main difficulty is choosing the correct paired argument among many topical neighbors.

Researchers should inspect errors for topic-only retrieval. A model that retrieves a text about the same policy area but not the correct argumentative relation may look plausible yet fail the task.

Query and Relevance Type Tendencies

Queries and documents are paragraph-length Persian argumentative texts. They may include policy claims, examples, causal reasoning, ethical positions, or social consequences. The positive is a single paired argument.

Relevance is stance-aware and relation-aware. The correct document usually shares topic vocabulary but also plays the intended counterargument or response role.

Representative Failure Modes

BM25 may retrieve any passage with the same topic words. Dense retrieval may retrieve a semantically similar passage that shares a broad stance but is not the paired argument. Hybrid retrieval may recover the positive but rank a more lexically similar distractor higher.

Another failure mode is topic dominance: long passages contain many issue terms, so the model may underweight rhetorical role or argumentative direction.

Training Data That May Help

Useful training data includes Persian argument-pair retrieval, translated ArguAna-style counterargument pairs, debate datasets, and stance-aware semantic search data. Hard negatives should share topic vocabulary but differ in stance relation or argumentative role.

Training should exclude NanoFaMTEB-v2 evaluation queries, positives, and source dataset rows used in this split.

Model Improvement Notes

Improving this task requires Persian embeddings that represent stance, argument structure, and topical semantics together. Models should preserve issue vocabulary while distinguishing support, opposition, qualification, and rebuttal.

For reranking, useful features include stance relation, rhetorical role, entity/topic match, and whether the target directly responds to the query argument.

Example Data

QueryPositive document
مخالفت با سقط جنین ناقص زایمان بخشی از استراتژی‌ای است که هدف آن ممنوع کردن سقط جنین به طور کلی است. سقط جنین ناقص زایمان درصد بسیار کمی از کل سقط جنین‌ها را تشکیل می‌دهد، اما از نظر پزشکی و روان‌شناختی، باید کمترین بحث‌برانگیز باشد. دلیل این تمرکز این است که سقط جنین در مراحل پایانی بارداری از نظر ظاهری ناخوشایندتر است، زیرا جنین در مراحل پایانی بارداری بیشتر شبیه نوزاد است تا جنین در مراحل اولیه رشد. بنابراین، سقط جنین در مراحل پایانی بارداری بهترین ماده برای تبلیغات ضد سقط جنین است. با تلاش ب... [500 / 668 chars]فلسفه بارداری، اخلاق، زندگی، خانواده، خانه، ممنوعیت سقط جنین ناقص اگرچه بسیاری از مخالفان سقط جنین نوع خاص، در اصل با سقط جنین مخالف هستند، اما ارتباط ضروری بین این دو وجود ندارد، زیرا سقط جنین نوع خاص، شکلی به‌ویژه وحشتناک از سقط جنین است. این موضوع به دلایلی است که پیش‌تر توضیح داده شد: این عمل شامل یک حمله فیزیکی عمدی و جنایتکارانه به جنینی است که نیمی از تولد خود را گذرانده و ما با اطمینان می‌دانیم که درد را احساس می‌کند و در نتیجه رنج می‌برد. ما می‌پذیریم که بحث‌های پزشکی معتبری در مورد احساس درد توسط جنین‌های اولیه و эмبریون‌ها وجود دارد؛ اما در این مورد چنین بحثی وجود ندارد و به همین دلیل است که سقط جنین نوع خاص به‌طور منحصربه‌فرد وحشتناک و به‌طور منحصربه‌فرد غیرقابل توجیه است. [694 chars]
فناوری نوین بشر بارها از طریق اختراعات عظیمی مانند کشاورزی، فولاد، آنتی‌بیوتیک‌ها و ریزتراشه‌ها، جهان را دگرگون کرده است. و همانطور که فناوری پیشرفت کرده، سرعت پیشرفت فناوری نیز افزایش یافته است. پیش‌بینی می‌شود که بین سال‌های ۲۰۰۰ تا ۲۰۵۰، ۳۲ برابر تغییرات بیشتری نسبت به دوره ۱۹۵۰ تا ۲۰۰۰ رخ دهد. در میان این تحولات، بسیاری از ذهن‌های بزرگ بر کاهش انتشار گازهای گلخانه‌ای و فناوری‌های کنترل آب و هوا متمرکز خواهند بود. بنابراین، حتی اگر بدترین پیش‌بینی‌های مربوط به تغییرات آب و هوایی به واقعیت بپی... [500 / 966 chars]خانه اقلیم معتقد است برای تغییرات اقلیمی جهانی خیلی دیر شده است. پیشرفت‌های تکنولوژیکی تقریباً به‌طور قطع برای کسانی که توانایی پرداخت آن را دارند توسعه خواهند یافت (همانطور که معمولاً در مورد بیشتر فناوری‌ها اتفاق می‌افتد). با این حال، تغییرات آب و هوایی بیشترین تأثیر را بر کشورهای فقیر خواهد گذاشت که توانایی مقابله با آن را ندارند. این احتمال وجود دارد که بتوانیم افراد ثروتمند را محافظت کنیم، اما این بدان معنا نیست که برای تغییرات آب و هوایی جهانی خیلی دیر شده است. [472 chars]
گیاهخواری خطر مسمومیت غذایی را کاهش می‌دهد. تقریباً تمام انواع خطرناک مسمومیت غذایی از طریق گوشت یا تخم‌مرغ منتقل می‌شوند. به عنوان مثال، باکتری کمپیلوباکتر که شایع‌ترین علت مسمومیت غذایی در انگلستان است، معمولاً در گوشت و طیور خام، شیر غیر پاستوریزه و آب تصفیه نشده یافت می‌شود. سالمونلا از گوشت، طیور و محصولات لبنی خام می‌آید و بیشتر موارد مسمومیت غذایی با اشریشیا کلی (E-Coli) پس از خوردن گوشت گاو نپخته یا نوشیدن شیر غیر پاستوریزه رخ می‌دهد. [1] تماس نزدیک بین انسان و حیوانات همچنین منجر به زئو... [500 / 808 chars]حیوانات، محیط زیست، سلامت عمومی، بهداشت عمومی، وزن، فلسفه، اخلاق. ایمنی و بهداشت مواد غذایی برای همه بسیار مهم است و دولت‌ها باید برای اطمینان از وجود استانداردهای بالا، به ویژه در رستوران‌ها و سایر مکان‌هایی که مردم غذا تهیه می‌کنند، اقدام کنند. اما مسمومیت غذایی می‌تواند در هر جایی رخ دهد؛ «افراد دوست ندارند اعتراف کنند که میکروب‌ها ممکن است از خانه خودشان آمده باشند» [۱] و در حالی که گوشت به ویژه در معرض آلودگی است، باکتری‌هایی وجود دارند که می‌توانند از طریق سبزیجات منتقل شوند، به عنوان مثال لیستریای مونوسیتوژنز می‌تواند از طریق سبزیجات خام منتقل شود. [۲] تقریباً سه چهارم از انتقال‌های زئونوزیک (انتقال بیماری از حیوانات به انسان) توسط عوامل بیماری‌زای منشأ حیات وحش ایجاد می‌شوند؛ حتی برخی از مواردی که ممکن است ناشی از دام‌ها مانند آنفولانزای پرندگان باشد، می‌توانند به طور مشابه از حیوانات وحشی منشا گرفته باشند. ما نمی‌توانیم کار زیادی برای جلوگیری از انتقال چنین بیماری‌هایی انجام دهیم، مگر اینکه تماس نزدیک را کاهش دهیم. بنابراین، تغییر به گیاهخواری ممکن است با کاهش تماس، چنین بیمار... [1,000 / 1,605 chars]

Source Reference Table

SourceRole
FaMTEB: Massive Text Embedding Benchmark in Persian LanguagePersian embedding benchmark paper.
MTEB: Massive Text Embedding BenchmarkGeneral benchmark framework that FaMTEB follows.
MCINext/arguana-fa-v2Public source dataset card.
hakari-bench/NanoFaMTEB-v2Nano benchmark dataset containing this split.

Dataset Information

FieldValue
Nano setNanoFaMTEB-v2
Backing datasetNanoFaMTEB-v2
Task / splitargu_ana_fa
Hugging Face datasethakari-bench/NanoFaMTEB-v2
Languagefa
Categorynatural_language
Queries199
Documents8,669
Positive qrels199
Positives / query avg1.00
Positives / query min1
Positives / query median1.00
Positives / query max1
Multi-positive queries0 (0.00%)
Query length avg chars1,100.98
Document length avg chars973.15

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.28600.64320.9347top-500
Denseharrier_oss_v1_270m0.32870.72360.9397top-500
Reranking hybridreranking_hybrid0.31280.68340.9598top-100