HAKARI-Bench

NanoIndicQA / or

Overview

NanoIndicQA / or is the Odia split of IndicQA retrieval. The queries are Odia reading-comprehension questions, and the documents are Odia context paragraphs from a compact corpus.

This task evaluates Odia paragraph retrieval for QA. The model must retrieve the context paragraph that supports the answer, often among passages that share people, films, history, temples, or political terminology.

Details

What the Original Data Measures

IndicQA is a cloze-style reading-comprehension benchmark within IndicXTREME, introduced in "Towards Leaving No Indic Language Behind". The retrieval version measures question-to-context matching by treating the source paragraph as the relevant document.

In the Odia split, the benchmark tests retrieval over Odia contexts with cultural, biographical, historical, and encyclopedic content.

Observed Data Profile

This Nano split contains 200 queries, 252 documents, and 201 positive qrels. Queries have 1.005 positives on average, with a minimum of 1, a median of 1.0, and a maximum of 2. Only one query is multi-positive. Queries average 57.16 characters, and documents average 801.92 characters.

Observed examples ask about Amitabh Bachchan's father, the release year of a film, the height of an Indonesian Shiva temple, who directed a film, and who wanted Amitabh Bachchan to act. Documents are Odia paragraphs about biography, cinema, temples, history, and culture.

BM25 Evaluation Profile

BM25 reaches nDCG@10 of 0.6041, hit@10 of 0.7250, and recall@100 of 0.9154. The candidate pool contains the full 252-document corpus. BM25 is useful when the query repeats distinctive names, film titles, or cultural terms from the paragraph.

It struggles when multiple passages share the same person, film, or historical topic. Lexical overlap can identify the broad subject but miss the exact evidence paragraph.

Dense Evaluation Profile

The dense harrier-oss-270m profile reaches nDCG@10 of 0.7605, hit@10 of 0.8800, and recall@100 of 0.9652. Dense retrieval is the strongest direct profile.

This indicates that semantic question-context matching is important for Odia. Dense retrieval can rank the correct context higher when the query and evidence sentence do not share exact wording.

Reranking Hybrid Evaluation Profile

The reranking_hybrid candidate subset reaches nDCG@10 of 0.7033, hit@10 of 0.8150, and recall@100 of 0.9751. It uses 100 candidates per query, with four rank-101 safeguard positives.

Hybrid retrieval has the best recall@100 but lower top-10 quality than dense retrieval. It is therefore a useful reranking pool, while dense retrieval is the strongest direct ranker.

Metric Interpretation for Model Researchers

NanoIndicQA / or is a dense-favored Odia context retrieval task. BM25 provides a meaningful lexical baseline, but dense retrieval gives a large top-10 improvement.

Since almost every query has one positive, hit@10 and nDCG@10 directly measure whether the correct evidence paragraph appears early. Recall@100 helps assess candidate coverage for downstream reranking.

Query and Relevance Type Tendencies

Queries are Odia factual or cloze-style questions. Documents are paragraph-length contexts about biography, cinema, historical movements, temples, geography, and public figures.

The relevance relation is evidence support: the positive paragraph contains the information needed to answer the query.

Representative Failure Modes

BM25 may retrieve a paragraph about the same actor, film, or temple but not the requested fact. Dense retrieval may confuse semantically related biographical or film contexts. Hybrid retrieval reduces candidate misses but still needs evidence-level reranking.

When several questions point to related people or films, broad topical matching is not sufficient.

Training Data That May Help

Useful training data includes Odia QA retrieval, Odia Wikipedia passages, multilingual IndicQA-style data, and hard negatives with related organizations, people, movements, films, or historical topics.

Training should exclude this split's questions and positive context paragraphs.

Model Improvement Notes

Improving this task requires Odia language coverage and paragraph-level evidence selection. Models should preserve person names, titles, dates, numbers, and relation cues while handling question paraphrases.

For reranking, the model should determine whether the paragraph contains the exact answer evidence rather than just the same named entity.

Example Data

QueryPositive document
ଅମିତାଭଙ୍କ ବାପା ଜଣେ କ’ଣ ଥିଲେ ? [29 chars]ଅମିତାଭ ବଚ୍ଚନ ୧୯୪୨ ମସିହା ଅକ୍ଟୋବର ମାସ ୧୧ ତାରିଖରେ ଭାରତର ଉତ୍ତର ପ୍ରଦେଶ ରାଜ୍ୟରେ ଥିବା ଆଲ୍ହାବାଦଠାରେ ଜନ୍ମ ଗ୍ରହଣ କରିଥିଲେ । ସେତେବେଳେ ଭାରତ ବ୍ରିଟିଶ୍ ଶାସନାଧୀନ ଥିଲା । ତାଙ୍କ ପୂର୍ବପୂରୁଷମାନେ ଉତ୍ତର ପ୍ରଦେଶର ପ୍ରତାପଗଡ଼ ଜିଲ୍ଲାରେ ଥିବା ରାଣୀଗଞ୍ଜ ତାଲୁକାର ବାବୁପତି ଗ୍ରାମରେ ବସବାସ କରୁଥିଲେ । ତାଙ୍କ ପିତା ହରିବଂଶ ରାୟ ଶ୍ରୀବାସ୍ତବ (ବଚ୍ଚନ) ଜଣେ ଜଣାଶୁଣା ହିନ୍ଦୀ କବି ଓ ମାତା ତେଜୀ ବଚ୍ଚନ ପଞ୍ଜାବଠାରେ ଥିବା ଲିଆଲ୍‌ପୁର (ବର୍ତ୍ତମାନର ଫୈସଲାବାଦ)ର ଜଣେ ପଞ୍ଜାବୀ ଶିଖ୍ ଥିଲେ । ଅମିତାଭ ତାଙ୍କ ମାତାପିତାଙ୍କର ପ୍ରଥମ ସନ୍ତାନ । ତାଙ୍କ ସାନ ଭାଇଙ୍କ ନାମ ଅଜିତାଭ ବଚ୍ଚନ । ଭାରତୀୟ ସ୍ୱାଧିନତା ସଂଗ୍ରାମ ସମୟରେ ବ‌ହୁଳ ଭାବରେ ବ୍ୟବ‌ହୃତ ହୋଇଥିବା ସ୍ଲୋଗାନ୍ ଇନ୍‌କିଲାବ୍ ଜିନ୍ଦାବାଦ୍ଦ୍ୱାରା ପ୍ରେରିତ ହୋଇ ଅମିତାଭଙ୍କ ମାତାପିତା ତାଙ୍କ ନାମ ଇନ୍‌କିଲାବ୍ ରଖିଥିଲେ । ଇନ୍‌କିଲାବ୍‌ର ଅର୍ଥ ବିପ୍ଳବ ବଞ୍ଚିରହୁ । କିନ୍ତୁ ପରବର୍ତ୍ତୀ ସମୟରେ ହରିବଂଶ ରାୟ ତାଙ୍କର ଜଣେ ସାଥି କବି ସୁମିତ୍ରାନ‌ନ୍ଦନ ପନ୍ତଙ୍କ ପରାମର୍ଶକ୍ରମେ ଅମିତାଭଙ୍କ ନାମ ଇନ୍‌କଲାବ୍‌ରୁ ବଦଳାଇ ଅମିତାଭ ରଖିଥିଲେ । [826 chars]
ନେନୁ ଓକ୍କଡ଼ନି‌ ଚଳଚ୍ଚିତ୍ର କେଉଁ ମସିହାରେ ମୁକ୍ତିଲାଭ କରିଥିଲା? [56 chars]ଏହା ପରେ ମହେଶ ‌ଶ୍ରୀକାନ୍ତ ଆଡ୍‌ଲା‌ଙ୍କ ନିର୍ଦ୍ଦେଶିତ ‌ସୀତାମ୍ମା ଭେକିଟିଲ୍ଲୋ ସେରିମଲ୍ଲି ସିଟ୍ଟୁ‌ରେ ଅଭିନୟ କରିଥିଲେ, ଯାହାର କାହାଣୀ ‌ଦୋକୁଡ଼ୁ‌ ଚଳଚ୍ଚିତ୍ରର କାମ ଚାଲିଥିବା ବେଳେ ମହେଶ ବାବୁଙ୍କଦ୍ୱାରା ମଞ୍ଜୁର କରାଯାଇଥିଲା । ଏହି ଚଳଚ୍ଚିତ୍ରରେ ମହେଶଙ୍କ ସ‌ହ ଅଭିନେତା ‌ଭେଙ୍କଟେଶ ଦଗୁପତି‌, ‌ଅଞ୍ଜଳି‌ ଏବଂ ‌ସାମନ୍ତା‌ ମୁଖ୍ୟ ଭୂମିକାରେ ଅଭିନୟ କରିଥିଲେ । ଏହି ଚଳଚ୍ଚିତ୍ରଟି ଏକସାଙ୍ଗରେ ଅନେକ ବଡ଼ ବଡ଼ ଅଭିନେତା ଅଭିନେତ୍ରୀମାନଙ୍କୁ ନେଇ ନିର୍ମାଣ ହୋଇଥିଲା, ଯାହାକି ବିଗତ ୨୫ବର୍ଷ ମଧ୍ୟରେ ତେଲୁଗୁ କଥାଚିତ୍ର ଜଗତରେ ପ୍ରଥମ ଥର ପାଇଁ ହୋଇଥିଲା । ଏହି ଚଳଚ୍ଚିତ୍ରଟି ୨୦୧୩ ଜାନୁଆରୀରେ ମୁକ୍ତିଲାଭ କରିଥିଲା । ଏହି ଚଳଚ୍ଚିତ୍ରଟି ସେହିବର୍ଷରେ ତେଲୁଗୁ ଚଳଚ୍ଚିତ୍ର ଜଗତରେ ସର୍ବାଧିକ ଆୟ କରିଥିଲା ଏବଂ ମହେଶ ବାବୁଙ୍କ ଅଭିନୟ ଜୀବନରେ ସଫଳତାର ହ୍ୟାଟ୍ରିକ ଆଣିଦେଇଥିଲା । ଏହି ଚଳଚ୍ଚିତ୍ର ପାଇଁ ମହେଶ ବାବୁ ୬୧ତମ ଦକ୍ଷିଣ ଭାରତୀୟ ଫିଲ୍ମ‌ଫେୟାର୍ ଏବଂ ୩ୟ ଆନ୍ତର୍ଜାତୀୟ ଦକ୍ଷିଣ ଭାରତୀୟ ଚଳଚ୍ଚିତ୍ର ପୁରସ୍କାର ଉତ୍ସବରେ ଶ୍ରେଷ୍ଠ ନାୟକ ବିବେଚିତ ହୋଇଥିଲେ । ସେହି ବର୍ଷ ‌ଶ୍ରୀନୁ ଭାଇତାଲ୍‌ଙ୍କ ନିର୍ଦ୍ଦେଶନାରେ ମୁକ୍ତିଲାଭ କରିଥିବା ବାଦ୍‌ଶାହା ଚଳଚ୍ଚିତ୍ରରେ ମହେଶ ସ୍ୱର ଦେଇଥିଲେ । ୨୦୧୪ରେ ମହେଶ ବାବୁଙ୍କର ଦୁଇଟି ଚଳଚ୍ଚିତ୍ର ମୁକ୍ତିଲାଭ କରିଥିଲା । ପ୍ରଥମଟି ହେଉଛି ‌1: ନେନୁ ଓକ୍କଡ଼ନି‌, ଯେଉଁଥିରେ ମହେ... [1,000 / 1,862 chars]
ଇଣ୍ଡୋନେସିଆର ସବୁଠାରୁ ଉଚ୍ଚ ଶିବ ମନ୍ଦିରର ଉଚ୍ଚତା କେତେ ? [50 chars]ଇନ୍ଦୋନେସିଆର ହିନ୍ଦୁ ବା ବୁଦ୍ଧ ମନ୍ଦିରକୁ ଚାଣ୍ଡି କୁହାଯାଏ । ଏଥିରେ ସିଂହାସନ, ତା’ ଉପରେ ମୁଖ୍ୟ ମନ୍ଦିର ଓ ପ୍ରବେଶ ଦ୍ୱାର ରହିଥାଏ । ଏଗୁଡ଼ିକ ୭ମ ଶତାବ୍ଦୀରୁ ୧୫ଶ ଶତାବ୍ଦୀ ମଧ୍ୟରେ ନିର୍ମିତ ହୋଇଥିଲା । ବାଲିର ହିନ୍ଦୁମନ୍ଦିର ନିର୍ମାଣ ଶୈଳୀରେ ଏକ ପୁର ମଧ୍ୟରେ ଚାଣ୍ଡି ସ୍ଥାନ ପାଉଥିଲା । କେତେକ ପ୍ରମୁଖ ଇନ୍ଦୋନେସୀୟ ମନ୍ଦିର ମଧ୍ୟରେ ୯ମ ଶତାବ୍ଦୀରେ ମଧ୍ୟଜାଭାରେ ନିର୍ମିତ ପ୍ରମ୍ବାନନ ମନ୍ଦିର ଅନ୍ୟତମ । ଇନ୍ଦୋନେସିଆର ସବୁଠାରୁ ବଡ଼ ହିନ୍ଦୁ ମନ୍ଦିର ତ୍ରିମୂର୍ତ୍ତିଙ୍କ ଉଦ୍ଦେଶ୍ୟରେ ନିର୍ମିତ ଓ ଏଥିରେ ଥିବା ଶିବଙ୍କ ମନ୍ଦିରର ଉଚ୍ଚତା ୪୭ ମିଟର୍ । ଚାଣ୍ଡି ଶବ୍ଦ ଦୁର୍ଗାଙ୍କ ରୂପ “ଚଣ୍ଡିକା”ରୁ ଉଦ୍ଧୃତ ବୋଲି ବିଶ୍ୱାସ କରାଯାଏ । ଚାଣ୍ଡି ଓ ଚଣ୍ଡିକା ଶବ୍ଦର ସାମଞ୍ଜସ୍ୟ ଯୋଗୁଁ ଚାଣ୍ଡି ଶେଷକୃତ୍ୟ ବା ତାହା ସମ୍ବନ୍ଧୀୟ କର୍ମପାଇଁ ବ୍ୟବହୃତ ଓ ଏହାର ସମ୍ପର୍କ ମୃତ୍ୟୁ ପରବର୍ତ୍ତୀ ଜୀବନ ସହିତ ହୋଇଥାଇପାରେ ବୋଲି କେତେଜଣ ଗବେଷକ ଅନୁମାନ କରିଛନ୍ତି । [704 chars]

Source Reference Table

SourceRole
Towards Leaving No Indic Language BehindIndicXTREME and IndicQA benchmark paper.
mteb/IndicQARetrievalMTEB retrieval task dataset card.
ai4bharat/IndicQAUpstream IndicQA dataset card.
hakari-bench/NanoIndicQANano benchmark dataset containing this split.

Dataset Information

FieldValue
Nano setNanoIndicQA
Backing datasetNanoIndicQA
Task / splitor
Hugging Face datasethakari-bench/NanoIndicQA
Languageor
Categorynatural_language
Queries200
Documents252
Positive qrels201
Positives / query avg1.00
Positives / query min1
Positives / query median1.00
Positives / query max2
Multi-positive queries1 (0.50%)
Query length avg chars57.16
Document length avg chars801.92

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.60410.72500.9154top-500
Denseharrier_oss_v1_270m0.76050.88000.9652top-500
Reranking hybridreranking_hybrid0.70330.81500.9751top-100