NanoFaMTEB-v2 / sci_fact_fa
Overview
sci_fact_fa is a Persian scientific claim-evidence retrieval task in NanoFaMTEB-v2. The query is a scientific claim, and the documents are Persian scientific abstracts or paper snippets that may provide evidence for the claim.
This task tests technical evidence retrieval rather than general factual search. Exact biomedical and scientific terms are important, but a model must also connect a claim to abstracts that support, refute, or otherwise provide evidence for the same scientific relationship.
Details
What the Original Data Measures
FaMTEB includes translated BEIR-style retrieval tasks, including scientific evidence retrieval. sci_fact_fa uses MCINext/scifact-fa-v2, a Persian SciFact variant evaluated through the MTEB retrieval framework.
SciFact-style retrieval measures whether systems can find scientific abstracts relevant to a claim. In retrieval form, the model does not need to decide the stance label in the task document itself, but it must retrieve the abstract that contains the evidence needed for verification.
Observed Data Profile
This Nano split contains 200 queries, 5,183 documents, and 225 positive qrels. Queries have 1.12 positives on average, with a minimum of 1, a median of 1.0, and a maximum of 5. There are 15 multi-positive queries, or 7.5% of the split. Queries average 84.49 characters, and documents average 1,361.31 characters.
Observed examples include biomedical claims about DNA polymerase deficiency and ionizing radiation sensitivity, CRP and coronary artery bypass surgery mortality, p150 and EB1 interaction, noncoding RNA ribosome occupancy, and febrile seizures. Documents are longer scientific abstracts translated or rendered in Persian.
BM25 Evaluation Profile
BM25 reaches nDCG@10 of 0.6294, hit@10 of 0.7900, and recall@100 of 0.9022 with a top-500 candidate pool. This is the strongest direct ranking profile among the three first-stage views.
The task gives BM25 strong anchors: biomedical abbreviations, protein names, genes, procedures, and technical phrases often recur in both claims and abstracts. Exact term matching is therefore highly informative. However, BM25 can still struggle when evidence uses a different construction from the claim or when several abstracts share the same technical vocabulary.
Dense Evaluation Profile
The dense harrier-oss-270m profile reaches nDCG@10 of 0.5610, hit@10 of 0.7000, and recall@100 of 0.8578. Dense retrieval is weaker than BM25 on this task.
This suggests that general-purpose embedding similarity may not preserve enough fine-grained biomedical terminology and negation-sensitive claim structure. Scientific evidence retrieval often depends on exact entities, abbreviations, and measured relationships. Dense retrieval can find broad topical similarity, but that is not always enough to identify the evidence abstract.
Reranking Hybrid Evaluation Profile
The reranking_hybrid candidate subset reaches nDCG@10 of 0.6100, hit@10 of 0.7400, and recall@100 of 0.9333. It uses 100 candidates per query, with 15 rank-101 safeguard positives.
Hybrid retrieval gives the best recall@100 but does not exceed BM25 on nDCG@10 or hit@10. This makes it useful as a reranking pool: it broadens candidate coverage while retaining much of BM25's terminology-driven strength. The 15 safeguard rows show that a nontrivial number of positives needed the optional positive inclusion mechanism.
Metric Interpretation for Model Researchers
sci_fact_fa is a case where BM25 is stronger than dense retrieval. That is important for researchers because the task rewards precise technical term matching and claim-specific evidence, not only semantic relatedness.
nDCG@10 measures whether the evidence abstract is ranked high enough for a verifier or reader to use. Recall@100 matters for reranking pipelines, especially because the hybrid pool has the highest candidate coverage. Since most queries have only one positive, missing that abstract is costly.
Query and Relevance Type Tendencies
Queries are declarative Persian scientific claims, often with biomedical abbreviations, molecular entities, diseases, procedures, or experimental findings. Documents are longer abstracts with technical background, methods, and conclusions.
The relevance relation is evidence-based. A relevant abstract is not merely about the same protein or disease; it must contain evidence connected to the claim.
Representative Failure Modes
BM25 may retrieve abstracts that share a gene, protein, disease, or procedure but discuss a different relationship. Dense retrieval may retrieve topically similar biomedical abstracts that miss the exact claim, numeric result, or negation. Hybrid retrieval improves coverage but still needs a reranker that understands scientific evidence alignment.
Negation and directionality are particularly risky. Claims about whether a factor predicts mortality, increases a threshold, or does not produce a functional peptide require more than topic matching.
Training Data That May Help
Useful training data includes Persian scientific claim verification, translated SciFact examples, biomedical abstract retrieval, evidence sentence retrieval, and hard negatives that share technical terms but support a different claim or stance.
Training should exclude NanoFaMTEB-v2 evaluation claims and abstracts from this split.
Model Improvement Notes
Improving this task likely requires better biomedical term handling and claim-evidence alignment. Models should preserve abbreviations, gene and protein symbols, procedure names, negation, and causal or predictive relations.
For reranking, exact evidence sufficiency is more important than topical similarity. A reranker should identify whether the abstract can actually verify the claim.
Example Data
| Query | Positive document |
| موشهایی که نقص در پلیمراز I دیانای (polI) دارند، حساسیت بیشتری به اشعهی یونیزان (IR) نشان میدهند. [103 chars] | عملکردهای غیرهمپوشانِ پلیمرازهای DNA مو، لامبدا و ترمینال دئوکسینوکلئوتیدیلترانسفراز در بازترکیب V(D)J ایمونوگلوبولین در شرایط زنده. پلیمرازهای DNA مو (pol mu)، لامبدا (pol lambda) و ترمینال دئوکسینوکلئوتیدیلترانسفراز (TdT) آنزیمهایی از خانواده pol X هستند که در توالی و سازماندهی دامنه عملکردی همولوژی دارند. ما قبلاً نشان دادیم که pol mu در بازآرایی ژن زنجیره سبک نقش دارد، اما بهطور شگفتآوری نه در ژن زنجیره سنگین. در اینجا نشان میدهیم که محل اتصال زنجیره سنگین ایمونوگلوبولین در حیوانات فاقد pol lambda طول کوتاهتری با افزودههای N طبیعی دارد، که نشان میدهد pol lambda در طی بازآرایی زنجیره سنگین در مرحلهای قبل از عملکرد TdT جذب میشود. بر خلاف مطالعات آزمایشگاهی قبلی، تجزیه و تحلیل حیواناتی با غیرفعالسازی ترکیبی این آنزیمها هیچ فعالیت همپوشان یا جبرانی برای بازآرایی V(D)J بین pol mu، pol lambda و TdT نشان نداد. این استفاده پیچیده از پلیمرازها با ویژگیهای کاتالیزوری متمایز ممکن است با عملکرد خاصی که ناحیه سوم هایپروریابل برای هر زنجیره ایمونوگلوبولین بر عهده دارد، مطابقت... [1,000 / 1,153 chars] |
| پروتئین واکنشی سی (CRP) نمیتواند مرگ و میر پس از عمل جراحی بایپس عروق کرونر (CABG) را پیشبینی کند. [101 chars] | ارزیابی مقرونبهصرفه بودن استفاده از نشانگرهای پیشآگاهی در مدلهای تصمیمگیری: مطالعه موردی در اولویتبندی بیماران در انتظار جراحی عروق کرونر هدف: تعیین اثربخشی و مقرون به صرفه بودن استفاده از اطلاعات بیومارکرهای در گردش برای اطلاعرسانی به فرآیند اولویتبندی بیماران مبتلا به آنژین صدری پایدار که منتظر جراحی بایپس عروق کرونر هستند. طراحی: مدل تحلیل تصمیمگیری که چهار استراتژی اولویتبندی بدون بیومارکر (بدون اولویتبندی رسمی، دو نمره فوریت و یک نمره خطر) و سه استراتژی مبتنی بر نمره خطر با استفاده از بیومارکرها را مقایسه میکند: یک بیومارکر ارزیابی شده به طور معمول (نرخ فیلتراسیون گلومرولی تخمینی)، یک بیومارکر جدید (پروتئین واکنشگر C) یا هر دو. ترتیب انجام جراحی بایپس عروق کرونر در یک گروه از بیماران توسط هر استراتژی اولویتبندی تعیین شد و هزینههای میانگین طول عمر و سالهای زندگی تنظیمشده بر اساس کیفیت (QALYs) مقایسه شدند. منابع داده: رجیستری آنژیوگرافی و آنژیوپلاستی عروق کرونر سوئد (9935 بیمار مبتلا به آنژین صدری پایدار که منتظر جراحی بایپس عروق کرونر بودند و سپس به مدت 3.8 سال... [1,000 / 2,564 chars] |
| آرژینین ۹۰ در p150n برای برهمکنش با EB1 مهم است. [49 chars] | مبنای ساختاری فعالسازی مونتاژ میکروتوبول توسط کمپلکس EB1 و p150Glued. پروتئینهای ردیاب انتهای مثبت، مانند EB1 و کمپلکس داینین/دایناکتین، پویایی میکروتوبولها را تنظیم میکنند. تصور میشود این پروتئینها با تشکیل یک کمپلکس انتهای مثبت در نوکهای در حال رشد میکروتوبولها، میکروتوبولها را تثبیت کنند، اما مکانیسمهای آن به خوبی تعریف نشدهاند. در اینجا، ما ساختار کریستالی دو جزء کمپلکس انتهای مثبت، یعنی دامنه دیمریزاسیون انتهایی کاربوکسیلی EB1 و دامنه اتصال به میکروتوبول (CAP-Gly) زیرواحد p150Glued دایناکتین را گزارش میکنیم. هر مولکول دیمر EB1 شامل دو هلیکس است که یک دسته چهار هلیکسی محافظتشده را تشکیل میدهند، در حالی که محلهای اتصال p150Glued را نیز در ناحیه دم انعطافپذیر خود فراهم میکند. با ترکیب کریستالوگرافی، NMR و تجزیه و تحلیل جهشی، مطالعات ما عناصر تعاملی حیاتی هر دو EB1 و p150Glued را نشان میدهد که جهش در آنها فعالیت پلیمریزاسیون میکروتوبول را تغییر میدهد. علاوه بر این، حذف دم انعطافپذیر کلیدی از EB1، مونتاژ میکروتوبول را توسط EB1 به تنهایی فعال میکند، که نشان میدهد... [1,000 / 1,181 chars] |
Source Reference Table
| Source | Role |
| FaMTEB: Massive Text Embedding Benchmark in Persian Language | Persian embedding benchmark paper. |
| MTEB: Massive Text Embedding Benchmark | General embedding benchmark framework. |
| MCINext/scifact-fa-v2 | Public source dataset card. |
| hakari-bench/NanoFaMTEB-v2 | Nano benchmark dataset containing this split. |
Dataset Information
| Field | Value |
| Nano set | NanoFaMTEB-v2 |
| Backing dataset | NanoFaMTEB-v2 |
| Task / split | sci_fact_fa |
| Hugging Face dataset | hakari-bench/NanoFaMTEB-v2 |
| Language | fa |
| Category | natural_language |
| Queries | 200 |
| Documents | 5,183 |
| Positive qrels | 225 |
| Positives / query avg | 1.12 |
| Positives / query min | 1 |
| Positives / query median | 1.00 |
| Positives / query max | 5 |
| Multi-positive queries | 15 (7.50%) |
| Query length avg chars | 84.48 |
| Document length avg chars | 1,361.31 |
Candidate Subsets
| Profile | Config | nDCG@10 | Hit@10 | Recall@100 | Candidates |
| BM25 | bm25 | 0.6294 | 0.7900 | 0.9022 | top-500 |
| Dense | harrier_oss_v1_270m | 0.5610 | 0.7000 | 0.8578 | top-500 |
| Reranking hybrid | reranking_hybrid | 0.6100 | 0.7400 | 0.9333 | top-100 |