HAKARI-Bench

NanoMLDR / th

Overview

NanoMLDR / th is the Thai split of NanoMLDR, a multilingual long-document retrieval benchmark derived from MLDR. Unlike many MLDR language splits, the Thai data is described as mC4-style web data rather than clean Wikipedia-sourced articles. The Nano split has 151 queries, 3,199 documents, and 151 positive qrel rows, with exactly one positive document per query. Current diagnostics show reranking_hybrid as the strongest recall@100 profile, BM25 as the strongest nDCG@10 profile, and dense retrieval as weaker than both in this noisy Thai web setting.

Details

What the Original Data Measures

MLDR was introduced with the M3-Embedding work as a multilingual long-document retrieval benchmark. The dataset card describes sampling long documents, selecting a paragraph, and generating a specific question from that paragraph. For Thai, the source is mC4-style web text, which makes the task different from the cleaner encyclopedia-like splits.

The retrieval target is a full Thai web document that contains the answer-bearing paragraph. Models must handle noisy pages, boilerplate, advertising-like text, mixed scripts, and pages whose topical signal is less controlled than Wikipedia articles.

Observed Data Profile

The Nano split contains 151 queries, 3,199 documents, and 151 positive qrel rows. Every query has exactly one positive document. Queries average 85.25 characters, while documents average 4,994.82 characters.

Observed examples include questions about online slot games, social ideals around fathers and labor, corporate governance, hotels near Balaclava, Bitcoin Core folders, casino pages, lodging pages, shopping promotions, fiction pages, and other Thai web text with boilerplate and mixed-language fragments.

BM25 Evaluation Profile

The dataset-provided BM25 candidate subset contains 500 candidates per query and achieves nDCG@10 = 0.3873, hit@10 = 0.4636, and recall@100 = 0.7152. BM25 has the best nDCG@10 among the three provided profiles, but the absolute score is low compared with most encyclopedia-based MLDR splits.

This indicates that Thai lexical matching is helpful but fragile. Query terms may appear in noisy boilerplate, repeated templates, product text, or mixed script fragments. Thai word segmentation and web-page noise also make exact term-frequency evidence less reliable than in cleaner article collections.

Dense Evaluation Profile

The dense harrier_oss_v1_270m candidate subset contains 500 candidates per query and achieves nDCG@10 = 0.2671, hit@10 = 0.3642, and recall@100 = 0.6954. Dense retrieval is weaker than BM25 at the top ranks and slightly lower in recall@100.

The profile suggests that embedding similarity is also challenged by the Thai web source. Pages may combine unrelated boilerplate, promotions, navigation, and copied fragments. A dense document representation can match broad topical or commercial context while missing the specific paragraph that generated the question.

Reranking Hybrid Evaluation Profile

The reranking_hybrid candidate subset contains mostly 100 candidates per query, with 35 queries using a rank-101 safeguard row. It achieves nDCG@10 = 0.3469, hit@10 = 0.4437, and recall@100 = 0.7682. Hybrid retrieval has the best recall@100 and nearly reaches BM25 hit@10, but it remains below BM25 on nDCG@10.

This is a different pattern from splits where BM25 dominates every metric. The hybrid pool finds additional positives that BM25 misses, which is valuable for reranking. The tradeoff is rank order: noisy dense or lexical neighbors can push the single positive lower than BM25 would.

Metric Interpretation for Model Researchers

This task is single-positive: each query has exactly one relevant long document. Hit@10 measures whether that document appears near the top. nDCG@10 is sensitive to the positive document's exact rank, and recall@100 measures whether it remains available for reranking.

The Thai split should be treated as a noisy-web long-document retrieval task, not only as a Thai-language encyclopedia benchmark. It tests robustness to boilerplate, mixed scripts, repeated templates, and weakly controlled document topics. Recall and top-rank precision can move in different directions.

Query and Relevance Type Tendencies

Queries are Thai paragraph-grounded questions about entertainment, commercial web pages, lodging, corporate governance, technology, social commentary, and other web topics. They can contain long question wording, fragments of page language, or terms shared by many templated pages.

Relevant documents are full Thai web documents containing the answer paragraph. They may include unrelated navigation, advertisements, product lists, dates, and copied text. Good retrieval needs both Thai text handling and web-noise filtering.

Representative Failure Modes

BM25 can match boilerplate or repeated keywords instead of the paragraph that answers the query. Dense retrieval can retrieve a page with similar commercial or topical context but not the specific answer-bearing content. Both methods can be confused by mixed scripts, duplicated page templates, and pages with thin original text.

Hybrid retrieval improves coverage but can rank noisy near-duplicates or template-sharing negatives above the positive. Rerankers should identify the actual answer paragraph and discount repeated page furniture.

Training Data That May Help

Useful training data includes Thai noisy-web long-document QA retrieval pairs, Thai mC4 retrieval data, multilingual MLDR training data outside this Nano split, and Thai web hard negatives that share boilerplate, product terms, casino language, travel templates, or entertainment names.

Synthetic data should include noisy Thai web documents, not only clean encyclopedic articles. Questions should be generated from a specific paragraph, while hard negatives should share web templates or keywords without answering the question.

Model Improvement Notes

Dense retrievers should consider chunked indexing, paragraph-aware pooling, and noise-aware document representations. Sparse systems need robust Thai segmentation and should reduce the influence of repeated boilerplate. Rerankers should be trained to locate answer-bearing spans inside noisy pages.

For hybrid systems, NanoMLDR / th is especially useful because reranking_hybrid improves recall@100 over both BM25 and dense retrieval while not winning nDCG@10. It is a candidate-generation benchmark where better reranking could convert extra coverage into top-rank gains.

Example Data

QueryPositive document
สล็อตออนไลน์เป็นเกมที่ได้รับความนิยมมากเพราะอะไร? [49 chars]【เกมยิงปลาตายไว】เครดิต ฟรี 999 vjf \2019-09-18 \อ่านเรื่องเต็ม(610) \ทบทวน(526) 【แจก เครดิต ฟรี 2000】แจก เงิน ฟรี 1000 h1h \2019-09-18 \อ่านเรื่องเต็ม(122) \ทบทวน(535) 【เว็บ เล่น ดั ม มี่ ออนไลน์ เงิน จริง】ทดลอง เกมส์ ยิง ปลา tzh \2019-09-18 \อ่าน(364) \ทบทวน(362) 【พนัน ออนไลน์ ฝาก ขั้น ต่ํา 100】gclub แจกเครดิตฟรี 2019 1fd \2019-09-18 \อ่าน(48) \ทบทวน(964) 【สูตรเล่น สล็อต ปลาทอง】เว็บพนันบอล ดีที่สุด dp1 \2019-09-18 \อ่าน(189) \ทบทวน(963) 【สล็อต ออนไลน์ w88】สล็อตออนไลน์ gclub bzr \2019-09-18 \อ่าน(44) \ทบทวน(785) d1z \2019-09-18 \อ่าน(228) \ทบทวน(812) 【free slot machines with bonus】คา สิ โน มา เก๊า ขั้น ต่ำ เท่า ไหร่ t9l \2019-09-18 \อ่าน(924) \ทบทวน(351) 【สล็อต หาเงิน】คาสิโน จีน bbv \2019-09-18 \อ่าน(655) \ทบทวน(552) 【คา สิ โน 99】สล็อต เครดิต ฟรี ถอน ได้ 2561 v0z \2019-09-17 \อ่าน(393) \ทบทวน(153) 【เว็บไซต์สล็อตออนไลน์อันดับ1】แจก เครดิต ฟรี ไม่ ต้อง ฝาก 100 pxj \2019-09-17 \อ่าน(789) \ทบทวน(925) 【เกมสล็อตเล่นฟรีบนมือถือ】casino แจก เครดิต ฟรี 500 0fr \2... [1,000 / 25,397 chars]
ในสังคมที่เราอาศัยอยู่ในปัจจุบัน, ทำไมการมีพ่อที่ออกไปทำงานอย่างหนักเพื่อเลี้ยงครอบครัวถือว่าเป็นแบบ Ideal และทำไมมันถือเป็นการกล่อมเกลาทางสังคม? [145 chars]คุณกำลังอ่าน: อุตสาหกรรมบันเทิงเกาหลีใต้ เติบโตพร้อมกับการสร้างประชาธิปไตย คุยกับ อ.จักรกริช สังขมณี Posted On 24 April 2020 Karoonporn Chetpayark ภาพยนตร์เกาหลีคว้าออสการ์ ซีรีส์ก็โด่งดัง เรตติ้งดี มีคนติดตาม ไอดอล และเพลงเกาหลีเองก็ไประดับโลก ประสบความสำเร็จกันมากกว่าแค่ในประเทศ หรือในเอเชียแล้ว หลายปีที่ผ่านมา เราเห็นอุตสาหกรรมบันเทิงเกาหลีใต้เติบโต มีแฟนคลับในบ้านเรา ไปจนถึงการมีแฟนคลับติดตามกระแสไปทั่วโลก แต่การเติบโตนี้ ไม่ใช่เพียงแค่มาจากการลงทุน หรือการสร้างคอนเทนต์ในช่วงแค่ไม่กี่ปี แต่การพัฒนาอุตสาหกรรมบันเทิงนี้ เรียกได้ว่ามีปัจจัยเติบโตมาพร้อมๆ กับการต่อสู้ทางการเมือง และประชาธิปไตยในประเทศมาหลายทศวรรษ The MATTER มาพูดคุยกับ รศ.ดร.จักรกริช สังขมณี อาจารย์ประจำภาคสังคมวิทยา และมานุษยวิทยา คณะรัฐศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ผู้ศึกษา Pop Culture และวัฒนธรรมในเกาหลีใต้ ว่าที่อุตสากรรมบันเทิงในแดนกิมจินี้ ไปสู่ระดับโลกได้เป็นเพราะอะไร ทำไมการต่อสู้ทางการเมือง ถึงมาควบคู่กับการเติบโตของวงการนี้ และการได้ออสการ์ในปีล่าสุด ของภาพยนตร์เกาหลี มีความหมายอย่างไรบ้าง ? เราเห็นกระแสของวงก... [1,000 / 28,444 chars]
าความสำคัญและการตัดสินใจที่ดีในการเลือกตั้งกรรมการอีกครั้งควรพิจารณาอะไรบ้างเพื่อให้คณะกรรมการมีประสิทธิภาพในการควบคุมบริษัทอย่างเหมาะสม? [137 chars]การกำกับดูแลกิจการ - King Wai Group (Thailand) Public Company Limited Home / นักลงทุนสัมพันธ์ / การกำกับดูแลกิจการ บริษัทมีพันธะกิจเพื่อบรรลุถึงมาตรฐานระดับสูงของหลักการกำกับดูแลกิจการและได้กำหนดแนวทางในการปฏิบัติตามกฎหมาย ระเบียบต่างๆ เพื่อปกป้องและคุ้มครองประโยชน์สูงสุดของผู้ถือหุ้นและสร้างความเชื่อมั่นในคุณค่าในระยะยาวแก่ผู้ถือหุ้น คณะกรรมการบริษัทดำเนินการกำกับดูแลอย่างดีที่สุด บนพื้นฐานหลักเกณฑ์จรรยาบรรณทางธุรกิจ บริษัทดำเนินการเป็นไปตามหลักการกำกับดูแลกิจการที่ดี และปฏิบัติอย่างดีที่สุดตามหลักการและแนวทางปฏิบัติที่ดีตามแนวของตลาดหลักทรัพย์แห่งประเทศไทย ดังต่อไปนี้ A. สิทธิของผู้ถือหุ้น บริษัทตระหนักถึงความสำคัญของการคุ้มครองสิทธิของผู้ถือหุ้น และสนับสนุนให้เกิดการใช้สิทธิเหล่านี้ สิทธิขั้นพื้นฐานตามกฎหมายของผู้ถือหุ้น อันประกอบด้วยสิทธิในการซื้อ ขาย โอน หลักทรัพย์ที่ตนถืออยู่ สิทธิในการรับส่วนแบ่งเงินปันผล สิทธิในการได้รับข้อมูลที่เกี่ยวข้องและเพียงพอ ตรงเวลา และสม่ำเสมอ สิทธิในการเข้าร่วมประชุมผู้ถือหุ้น สิทธิในการเสนอวาระการประชุมผู้ถือหุ้น สิทธิในการออกเสียงลงคะแนนแต่งตั้ง หรื... [1,000 / 29,125 chars]

Source Reference Table

TitleYearTypeURL
M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation2024benchmark paperhttps://arxiv.org/abs/2402.03216
M3-Embedding ACL Anthology version2024paperhttps://aclanthology.org/2024.findings-acl.137/
MLDR: Multilingual Long-Document Retrieval dataset2024dataset cardhttps://huggingface.co/datasets/Shitao/MLDR

Dataset Information

FieldValue
Nano setNanoMLDR
Backing datasetNanoMLDR
Task / splitth
Hugging Face datasethakari-bench/NanoMLDR
Languageth
Categorynatural_language
Queries151
Documents3,199
Positive qrels151
Positives / query avg1.00
Positives / query min1
Positives / query median1.00
Positives / query max1
Multi-positive queries0 (0.00%)
Query length avg chars85.25
Document length avg chars4,994.82

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.38730.46360.7152top-500
Denseharrier_oss_v1_270m0.26710.36420.6954top-500
Reranking hybridreranking_hybrid0.34690.44370.7682top-100

Training and Leakage Metadata