HAKARI-Bench

MNanoBEIR / NanoBEIR-fr / NanoClimateFEVER

Overview

This task is the French NanoBEIR version of Climate-FEVER, a climate claim verification retrieval benchmark. The original Climate-FEVER dataset uses real-world climate claims and Wikipedia evidence to test whether systems can retrieve documents that support careful verification. In this NanoBEIR slice, French translated climate claims must retrieve French translated Wikipedia-style evidence documents from 3,408 candidates. The task contains 50 queries and 148 positive relevance judgments, with an average of 2.96 positives per query. Most claims have multiple relevant documents. It is a compact diagnostic for climate-science evidence retrieval, where models must connect claim wording to scientific context, temporal framing, mechanisms, records, and broad encyclopedia pages that may not repeat the claim exactly.

Details

What the Original Data Measures

Climate-FEVER measures evidence retrieval for climate-related claims. A claim may refer to sea-level variability, greenhouse gases, historical temperature periods, extreme weather, solar activity, or climate attribution. The retrieval task is to find evidence pages that help verify the claim before any final label is assigned. This requires more than recognizing climate vocabulary; the document must contain relevant scientific or historical context.

Observed Data Profile

The French Nano task has 50 queries, 3,408 documents, and 148 positives. Positives per query average 2.96, and 44 of 50 queries have multiple positives. Queries average about 159 characters, while documents are long, averaging about 1,827 characters. The examples include claims about warming from 1970 to 1998, downward trends, local and regional sea-level variation, Hurricane Harvey, and the CERN CLOUD experiment. Positive documents are translated Wikipedia-style evidence pages.

BM25 Evaluation Profile

BM25 reaches nDCG@10 of 0.306, Hit@10 of 0.700, and Recall@100 of 0.615. Sparse retrieval helps when climate terms such as CO2, sea level, solar cycle, or named experiments recur in both claim and evidence page. However, many positives are broader context pages or use different wording from the claim. BM25 can retrieve topically climate-related pages while missing the specific evidence needed for verification.

Dense Evaluation Profile

The dense harrier-oss-270m baseline is slightly stronger than BM25, with nDCG@10 of 0.311, Hit@10 of 0.720, and Recall@100 of 0.635. Dense retrieval helps connect claims to semantically related evidence pages, especially when evidence is explanatory rather than phrase-matched. The small margin over BM25 indicates that exact climate terminology remains important, while general semantic similarity alone does not fully solve claim-specific evidence retrieval.

Reranking Hybrid Evaluation Profile

The reranking_hybrid profile is clearly strongest, with nDCG@10 of 0.353, Hit@10 of 0.780, and Recall@100 of 0.696, with two safeguard rows at 101 candidates. This is a strong hybrid-search pattern: BM25 contributes exact scientific terms and names, while dense retrieval contributes broader evidence-page matching. The hybrid profile improves both top-10 ranking and candidate coverage, making it the most useful first-stage retriever for this French Climate-FEVER slice.

Metric Interpretation for Model Researchers

Because most queries have several positives, Hit@10 should be treated as only a first-evidence signal. Recall@100 matters for verification pipelines because claims may need several evidence pages or because different pages capture different aspects of the claim. nDCG@10 measures whether evidence appears early enough for practical use. The hybrid gains show that both lexical and semantic signals are needed.

Query and Relevance Type Tendencies

Queries are declarative French climate claims, often with numeric, temporal, or causal framing. Relevant documents are encyclopedia-style evidence pages, not short answers. Some positives are narrow mechanism pages, while others are broad background pages. The task is sensitive to scientific terminology, named institutions, time periods, and translation choices.

Representative Failure Modes

BM25 can retrieve a page that shares a climate term but does not verify the claim. Dense retrieval can retrieve generally related climate pages that lack the required evidence. Hybrid retrieval reduces both errors but may still rank broad climate pages above the most directly useful evidence. Failure analysis should ask whether the document would help verify the specific claim.

Training and Leakage Considerations

Training should exclude Climate-FEVER, BEIR, NanoBEIR, and translated records likely to overlap with these claims or evidence pages. Useful non-overlapping data includes climate fact-checking data, scientific claim-evidence retrieval pairs, French or multilingual Wikipedia verification data, and hard negatives from related climate pages. Multi-positive training is recommended because most claims have several evidence documents.

Model Improvement Signals

Strong models should improve climate evidence recall without losing claim specificity. Useful training signals include temporal and numeric claim variants, related climate hard negatives, scientific term normalization, and multilingual claim verification pairs. Hybrid systems should preserve exact scientific terms while using dense similarity to recover broader explanatory evidence.

Example Data

QueryPositive document
De 1970 à 1998, il y a eu une période de réchauffement qui a fait augmenter les températures d'environ 0,7 degré Fahrenheit, contribuant ainsi à l'émergence du mouvement alarmiste du réchauffement climatique. [208 chars]Le Paléocène (prononcé /paleosɛn/), ou Paléocène, qui signifie « ancien récent », est une époque géologique qui a duré d'environ 66 à 56 millions d'années. C'est la première époque de la période Paléogène dans l'ère Cénozoïque moderne. Comme pour de nombreuses périodes géologiques, les strates qui définissent le début et la fin de cette époque sont bien identifiées, mais les âges exacts restent incertains. L'époque du Paléocène encadre deux événements majeurs dans l'histoire de la Terre. Elle a commencé avec l'événement d'extinction massive à la fin du Crétacé, connu sous le nom de limite Crétacé-Paléogène (K-Pg). Cette période a été marquée par la disparition des dinosaures non aviens, des grands reptiles marins et de nombreuses autres faunes et flores. La disparition des dinosaures a laissé des niches écologiques vacantes à travers le monde. Le Paléocène s'est terminé avec le Maximum Thermique du Paléocène-Éocène, un intervalle géologiquement bref (environ 0,2 million d'années) carac... [1,000 / 1,248 chars]
En réalité, la tendance, bien qu'elle ne soit pas statistiquement significative, baisse. [88 chars]Le cycle solaire ou cycle d'activité magnétique solaire est le cycle quasi périodique d'environ 11 ans des variations de l'activité du Soleil (y compris les changements dans les niveaux de rayonnement solaire et l'éjection de matière solaire) et de son apparence (changements dans le nombre et la taille des taches solaires, des éruptions, et d'autres phénomènes). On les a observés (par les changements dans l'apparence du Soleil et par les changements observés sur Terre, comme les aurores) depuis des siècles. Les changements sur le Soleil provoquent des effets dans l'espace, dans l'atmosphère, et à la surface de la Terre. Bien qu'il soit la principale variable de l'activité solaire, des fluctuations irrégulières se produisent également. [744 chars]
Les niveaux de la mer locaux et régionaux continuent de varier naturellement, montant dans certaines régions et baissant dans d'autres. [135 chars]Le niveau moyen de la mer (NMM) (abréviation simplement niveau de la mer) est un niveau moyen de la surface d'un ou plusieurs des océans de la Terre à partir duquel des hauteurs telles que les altitudes peuvent être mesurées. Le NMM est un type de référence géodésique verticale standardisée utilisée, par exemple, comme référence de carte en cartographie et en navigation maritime, ou, en aviation, comme niveau moyen de la mer auquel la pression atmosphérique est mesurée afin de calibrer l'altitude et, par conséquent, les niveaux de vol des avions. Un standard de niveau moyen de la mer courant et relativement simple est le point médian entre une marée basse moyenne et une marée haute moyenne à un endroit particulier. Les niveaux de la mer peuvent être affectés par de nombreux facteurs et sont connus pour avoir beaucoup varié sur des échelles de temps géologiques. La mesure précise des variations du NMM peut offrir des perspectives sur le changement climatique en cours, et l'élévation du... [1,000 / 1,206 chars]

Source Reference Table

LabelURL

| Climate-FEVER paper (https://arxiv.org/abs/2012.00614) | | BEIR benchmark (https://github.com/beir-cellar/beir) | | MMTEB benchmark (https://arxiv.org/abs/2502.13595) | | NanoBEIR dataset (https://huggingface.co/collections/zeta-alpha-ai/nanobeir) |

Dataset Information

FieldValue
Nano setMNanoBEIR
Backing datasetNanoBEIR-fr
Task / splitNanoClimateFEVER
Hugging Face datasethakari-bench/NanoBEIR-fr
Languagefr
Categorynatural_language
Queries50
Documents3,408
Positive qrels148
Positives / query avg2.96
Positives / query min1
Positives / query median3.00
Positives / query max5
Multi-positive queries44 (88.00%)
Query length avg chars158.84
Document length avg chars1,826.88

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.30630.70000.6149top-500
Denseharrier_oss_v1_270m0.31140.72000.6351top-500
Reranking hybridreranking_hybrid0.35310.78000.6959top-100