HAKARI-Bench

NanoFaMTEB-v2 / sci_fact_fa

Overview

sci_fact_fa is a Persian scientific claim-evidence retrieval task in NanoFaMTEB-v2. The query is a scientific claim, and the documents are Persian scientific abstracts or paper snippets that may provide evidence for the claim.

This task tests technical evidence retrieval rather than general factual search. Exact biomedical and scientific terms are important, but a model must also connect a claim to abstracts that support, refute, or otherwise provide evidence for the same scientific relationship.

Details

What the Original Data Measures

FaMTEB includes translated BEIR-style retrieval tasks, including scientific evidence retrieval. sci_fact_fa uses MCINext/scifact-fa-v2, a Persian SciFact variant evaluated through the MTEB retrieval framework.

SciFact-style retrieval measures whether systems can find scientific abstracts relevant to a claim. In retrieval form, the model does not need to decide the stance label in the task document itself, but it must retrieve the abstract that contains the evidence needed for verification.

Observed Data Profile

This Nano split contains 200 queries, 5,183 documents, and 225 positive qrels. Queries have 1.12 positives on average, with a minimum of 1, a median of 1.0, and a maximum of 5. There are 15 multi-positive queries, or 7.5% of the split. Queries average 84.49 characters, and documents average 1,361.31 characters.

Observed examples include biomedical claims about DNA polymerase deficiency and ionizing radiation sensitivity, CRP and coronary artery bypass surgery mortality, p150 and EB1 interaction, noncoding RNA ribosome occupancy, and febrile seizures. Documents are longer scientific abstracts translated or rendered in Persian.

BM25 Evaluation Profile

BM25 reaches nDCG@10 of 0.6294, hit@10 of 0.7900, and recall@100 of 0.9022 with a top-500 candidate pool. This is the strongest direct ranking profile among the three first-stage views.

The task gives BM25 strong anchors: biomedical abbreviations, protein names, genes, procedures, and technical phrases often recur in both claims and abstracts. Exact term matching is therefore highly informative. However, BM25 can still struggle when evidence uses a different construction from the claim or when several abstracts share the same technical vocabulary.

Dense Evaluation Profile

The dense harrier-oss-270m profile reaches nDCG@10 of 0.5610, hit@10 of 0.7000, and recall@100 of 0.8578. Dense retrieval is weaker than BM25 on this task.

This suggests that general-purpose embedding similarity may not preserve enough fine-grained biomedical terminology and negation-sensitive claim structure. Scientific evidence retrieval often depends on exact entities, abbreviations, and measured relationships. Dense retrieval can find broad topical similarity, but that is not always enough to identify the evidence abstract.

Reranking Hybrid Evaluation Profile

The reranking_hybrid candidate subset reaches nDCG@10 of 0.6100, hit@10 of 0.7400, and recall@100 of 0.9333. It uses 100 candidates per query, with 15 rank-101 safeguard positives.

Hybrid retrieval gives the best recall@100 but does not exceed BM25 on nDCG@10 or hit@10. This makes it useful as a reranking pool: it broadens candidate coverage while retaining much of BM25's terminology-driven strength. The 15 safeguard rows show that a nontrivial number of positives needed the optional positive inclusion mechanism.

Metric Interpretation for Model Researchers

sci_fact_fa is a case where BM25 is stronger than dense retrieval. That is important for researchers because the task rewards precise technical term matching and claim-specific evidence, not only semantic relatedness.

nDCG@10 measures whether the evidence abstract is ranked high enough for a verifier or reader to use. Recall@100 matters for reranking pipelines, especially because the hybrid pool has the highest candidate coverage. Since most queries have only one positive, missing that abstract is costly.

Query and Relevance Type Tendencies

Queries are declarative Persian scientific claims, often with biomedical abbreviations, molecular entities, diseases, procedures, or experimental findings. Documents are longer abstracts with technical background, methods, and conclusions.

The relevance relation is evidence-based. A relevant abstract is not merely about the same protein or disease; it must contain evidence connected to the claim.

Representative Failure Modes

BM25 may retrieve abstracts that share a gene, protein, disease, or procedure but discuss a different relationship. Dense retrieval may retrieve topically similar biomedical abstracts that miss the exact claim, numeric result, or negation. Hybrid retrieval improves coverage but still needs a reranker that understands scientific evidence alignment.

Negation and directionality are particularly risky. Claims about whether a factor predicts mortality, increases a threshold, or does not produce a functional peptide require more than topic matching.

Training Data That May Help

Useful training data includes Persian scientific claim verification, translated SciFact examples, biomedical abstract retrieval, evidence sentence retrieval, and hard negatives that share technical terms but support a different claim or stance.

Training should exclude NanoFaMTEB-v2 evaluation claims and abstracts from this split.

Model Improvement Notes

Improving this task likely requires better biomedical term handling and claim-evidence alignment. Models should preserve abbreviations, gene and protein symbols, procedure names, negation, and causal or predictive relations.

For reranking, exact evidence sufficiency is more important than topical similarity. A reranker should identify whether the abstract can actually verify the claim.

Example Data

QueryPositive document
موش‌هایی که نقص در پلی‌مراز I دی‌ان‌ای (polI) دارند، حساسیت بیشتری به اشعه‌ی یونیزان (IR) نشان می‌دهند. [103 chars]عملکردهای غیرهمپوشانِ پلیمرازهای DNA مو، لامبدا و ترمینال دئوکسی‌نوکلئوتیدیل‌ترانسفراز در بازترکیب V(D)J ایمونوگلوبولین در شرایط زنده. پلی‌مرازهای DNA مو (pol mu)، لامبدا (pol lambda) و ترمینال دئوکسی‌نوکلئوتیدیل‌ترانسفراز (TdT) آنزیم‌هایی از خانواده pol X هستند که در توالی و سازمان‌دهی دامنه عملکردی همولوژی دارند. ما قبلاً نشان دادیم که pol mu در بازآرایی ژن زنجیره سبک نقش دارد، اما به‌طور شگفت‌آوری نه در ژن زنجیره سنگین. در اینجا نشان می‌دهیم که محل اتصال زنجیره سنگین ایمونوگلوبولین در حیوانات فاقد pol lambda طول کوتاه‌تری با افزوده‌های N طبیعی دارد، که نشان می‌دهد pol lambda در طی بازآرایی زنجیره سنگین در مرحله‌ای قبل از عملکرد TdT جذب می‌شود. بر خلاف مطالعات آزمایشگاهی قبلی، تجزیه و تحلیل حیواناتی با غیرفعال‌سازی ترکیبی این آنزیم‌ها هیچ فعالیت همپوشان یا جبرانی برای بازآرایی V(D)J بین pol mu، pol lambda و TdT نشان نداد. این استفاده پیچیده از پلی‌مرازها با ویژگی‌های کاتالیزوری متمایز ممکن است با عملکرد خاصی که ناحیه سوم هایپروریابل برای هر زنجیره ایمونوگلوبولین بر عهده دارد، مطابقت... [1,000 / 1,153 chars]
پروتئین واکنشی سی (CRP) نمی‌تواند مرگ و میر پس از عمل جراحی بای‌پس عروق کرونر (CABG) را پیش‌بینی کند. [101 chars]ارزیابی مقرون‌به‌صرفه بودن استفاده از نشانگرهای پیش‌آگاهی در مدل‌های تصمیم‌گیری: مطالعه موردی در اولویت‌بندی بیماران در انتظار جراحی عروق کرونر هدف: تعیین اثربخشی و مقرون به صرفه بودن استفاده از اطلاعات بیومارکرهای در گردش برای اطلاع‌رسانی به فرآیند اولویت‌بندی بیماران مبتلا به آنژین صدری پایدار که منتظر جراحی بای‌پس عروق کرونر هستند. طراحی: مدل تحلیل تصمیم‌گیری که چهار استراتژی اولویت‌بندی بدون بیومارکر (بدون اولویت‌بندی رسمی، دو نمره فوریت و یک نمره خطر) و سه استراتژی مبتنی بر نمره خطر با استفاده از بیومارکرها را مقایسه می‌کند: یک بیومارکر ارزیابی شده به طور معمول (نرخ فیلتراسیون گلومرولی تخمینی)، یک بیومارکر جدید (پروتئین واکنش‌گر C) یا هر دو. ترتیب انجام جراحی بای‌پس عروق کرونر در یک گروه از بیماران توسط هر استراتژی اولویت‌بندی تعیین شد و هزینه‌های میانگین طول عمر و سال‌های زندگی تنظیم‌شده بر اساس کیفیت (QALYs) مقایسه شدند. منابع داده: رجیستری آنژیوگرافی و آنژیوپلاستی عروق کرونر سوئد (9935 بیمار مبتلا به آنژین صدری پایدار که منتظر جراحی بای‌پس عروق کرونر بودند و سپس به مدت 3.8 سال... [1,000 / 2,564 chars]
آرژینین ۹۰ در p150n برای برهم‌کنش با EB1 مهم است. [49 chars]مبنای ساختاری فعال‌سازی مونتاژ میکروتوبول توسط کمپلکس EB1 و p150Glued. پروتئین‌های ردیاب انتهای مثبت، مانند EB1 و کمپلکس داینین/دایناکتین، پویایی میکروتوبول‌ها را تنظیم می‌کنند. تصور می‌شود این پروتئین‌ها با تشکیل یک کمپلکس انتهای مثبت در نوک‌های در حال رشد میکروتوبول‌ها، میکروتوبول‌ها را تثبیت کنند، اما مکانیسم‌های آن به خوبی تعریف نشده‌اند. در اینجا، ما ساختار کریستالی دو جزء کمپلکس انتهای مثبت، یعنی دامنه دیمریزاسیون انتهایی کاربوکسیلی EB1 و دامنه اتصال به میکروتوبول (CAP-Gly) زیرواحد p150Glued دایناکتین را گزارش می‌کنیم. هر مولکول دیمر EB1 شامل دو هلیکس است که یک دسته چهار هلیکسی محافظت‌شده را تشکیل می‌دهند، در حالی که محل‌های اتصال p150Glued را نیز در ناحیه دم انعطاف‌پذیر خود فراهم می‌کند. با ترکیب کریستالوگرافی، NMR و تجزیه و تحلیل جهشی، مطالعات ما عناصر تعاملی حیاتی هر دو EB1 و p150Glued را نشان می‌دهد که جهش در آن‌ها فعالیت پلیمریزاسیون میکروتوبول را تغییر می‌دهد. علاوه بر این، حذف دم انعطاف‌پذیر کلیدی از EB1، مونتاژ میکروتوبول را توسط EB1 به تنهایی فعال می‌کند، که نشان می‌دهد... [1,000 / 1,181 chars]

Source Reference Table

SourceRole
FaMTEB: Massive Text Embedding Benchmark in Persian LanguagePersian embedding benchmark paper.
MTEB: Massive Text Embedding BenchmarkGeneral embedding benchmark framework.
MCINext/scifact-fa-v2Public source dataset card.
hakari-bench/NanoFaMTEB-v2Nano benchmark dataset containing this split.

Dataset Information

FieldValue
Nano setNanoFaMTEB-v2
Backing datasetNanoFaMTEB-v2
Task / splitsci_fact_fa
Hugging Face datasethakari-bench/NanoFaMTEB-v2
Languagefa
Categorynatural_language
Queries200
Documents5,183
Positive qrels225
Positives / query avg1.12
Positives / query min1
Positives / query median1.00
Positives / query max5
Multi-positive queries15 (7.50%)
Query length avg chars84.48
Document length avg chars1,361.31

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.62940.79000.9022top-500
Denseharrier_oss_v1_270m0.56100.70000.8578top-500
Reranking hybridreranking_hybrid0.61000.74000.9333top-100