HAKARI-Bench

NanoMedical / NanoTRECCOVIDPL

Overview

NanoMedical / NanoTRECCOVIDPL is the Polish BEIR-PL adaptation of TREC-COVID. Queries are Polish translations of COVID-19 information needs, and documents are Polish translations of CORD-19 scientific article records. The underlying retrieval task comes from TREC-COVID, while BEIR-PL adds the Polish translation layer. This Nano split contains 50 single-positive queries over 10,000 documents. It is useful for evaluating multilingual biomedical retrieval under machine-translated scientific text, where models must handle Polish morphology, translated pandemic terminology, and exact information-need matching.

Details

What the Original Data Measures

TREC-COVID measures retrieval over COVID-19 scientific literature. BEIR-PL translates BEIR-style datasets into Polish to evaluate zero-shot Polish retrieval. This task combines both: it keeps the COVID-19 information needs and evidence-document structure, but presents queries and documents in Polish.

The target is a scientific article record that answers or addresses the specific information need. General COVID-19 topicality is not enough.

Observed Data Profile

The Nano split contains 50 queries, 10,000 documents, and 50 positive qrel rows. Each query has exactly one positive document. Queries average 69.42 characters, while documents average 1,251.91 characters.

The examples ask about dexamethasone treatment, surface stability, social distancing, serological antibody tests, and biomarkers for severe clinical course. Documents are translated title-plus-abstract records, often retaining names such as SARS-CoV-2, COVID-19, biomarkers, remdesivir, dexamethasone, and antibody terminology.

BM25 Evaluation Profile

The BM25 candidate subset uses top-500 candidates and reaches nDCG@10 of 0.3266, hit@10 of 0.4400, and recall@100 of 0.7000. BM25 is weaker than in the English NanoTRECCOVID split. Polish inflection, translated phrasing, and biomedical terminology variation reduce exact overlap, even when the underlying topic is the same.

Sparse retrieval still helps when drug names, virus names, or technical terms are preserved. It struggles when the question and translated abstract express the same evidence relation with different Polish wording.

Dense Evaluation Profile

The dense candidate subset from harrier_oss_v1_270m uses top-500 candidates and reaches nDCG@10 of 0.3585, hit@10 of 0.5200, and recall@100 of 0.8600. Dense retrieval improves over BM25 across all reported metrics, especially recall@100.

This shows that semantic retrieval is important for translated Polish biomedical search. The model must bridge inflected and translated forms while preserving the specific intervention, population, outcome, or test in the information need.

Reranking Hybrid Evaluation Profile

The reranking_hybrid subset uses top-100 candidates, with two queries carrying a rank-101 safeguard positive. It reaches nDCG@10 of 0.3864, hit@10 of 0.5400, and recall@100 of 0.9600. This is the strongest profile across the candidate types.

Hybrid retrieval is therefore the best candidate-generation strategy for this task. It combines exact preserved biomedical terms from BM25 with dense matching across Polish translation variation.

Metric Interpretation for Model Researchers

This is a single-positive task, so nDCG@10 and hit@10 directly measure whether the sampled positive appears early. Recall@100 measures candidate availability for reranking. Comparing this task with English NanoTRECCOVID is useful for identifying the added cost of translation and Polish retrieval.

The hybrid advantage suggests that multilingual biomedical systems should retain sparse exact-term behavior while using dense semantic matching.

Query and Relevance Type Tendencies

Queries are Polish clinical, biological, or public-health COVID-19 information needs. Relevant documents are translated scientific article records.

The relevance relation is evidence responsiveness to the translated question. A document must address the specific treatment, test, intervention, risk factor, or mechanism.

Representative Failure Modes

Common failures include matching generic COVID-19 passages, missing translated drug or test names, confusing older coronavirus literature with SARS-CoV-2 evidence, and failing on Polish inflection or phrasing changes. Sparse systems underperform when surface forms diverge; dense systems can still retrieve broad topic matches with the wrong evidence type.

Training Data That May Help

Useful training data includes non-overlapping Polish COVID-19 literature retrieval data, translated biomedical ad hoc retrieval data, Polish public-health QA and medical retrieval data, and multilingual CORD-19 retrieval with hard negatives. BEIR-PL TREC-COVID test examples, translated positives, and translated duplicates of English TREC-COVID evaluation topics should be excluded.

Model Improvement Notes

Models should preserve biomedical entity names while supporting Polish morphology and translation variation. Hard negatives should share COVID-19 vocabulary but differ in population, intervention, outcome, or evidence type. Hybrid candidate generation is the most useful setup for reranking experiments on this split.

Example Data

QueryPositive document
jakie są dowody na to, że deksametazon może być stosowany w leczeniu COVID-19? [78 chars]Połączenie tocilizumabu i metyloprednizolonu wraz ze wstępną strategią rekrutacji płuc w chorobie koronawirusowej 2019 Pacjenci wymagający wentylacji mechanicznej: seria 21 kolejnych przypadków CEL: Opisanie wyników leczenia skojarzonego tocilizumabem i metyloprednizolonem podawanym około czasu intubacji dotchawiczej u pacjentów z potwierdzoną hipoksemiczną niewydolnością oddechową związaną z koronawirusem 2019, wymagającą wentylacji mechanicznej. ŹRÓDŁA DANYCH: Retrospektywny przegląd wykresów. WYBÓR BADANIA/EKSTRAKCJA DANYCH: Dwudziestu jeden kolejnych pacjentów z potwierdzoną hipoksemiczną niewydolnością oddechową związaną z koronawirusem 2019 wymagającą wentylacji mechanicznej. Początkowymi parametrami respiratora były dodatnie ciśnienie końcowo-wydechowe 14 cm H(2)o i docelowe ciśnienie plateau 29 cm H(2)o, aby zmaksymalizować rekrutację płuc. Metyloprednizolon (125 mg co 6 godz. przez 24 godz. ze zmniejszaniem do 60 mg co 12 godz.) podawano wkrótce po zaintubowaniu pacjentów (med... [1,000 / 1,767 chars]
jak długo koronawirus pozostaje stabilny na powierzchniach? [59 chars]Płyny ustrojowe mogą przyczyniać się do przenoszenia z człowieka na człowieka koronawirusa zespołu ostrej ostrej niewydolności oddechowej 2: dowody i doświadczenia praktyczne TŁO: W grudniu 2019 r. w mieście Wuhan w prowincji Hubei zgłoszono niewiarygodną epidemię zapalenia płuc związanego z koronawirusem. Wirus ten nazwano koronawirusem zespołu ostrej ostrej niewydolności oddechowej 2 (SARS-CoV-2). Chociaż włożono wiele wysiłku w wyjaśnienie drogi przenoszenia SARS-CoV-2, ale dostępnych jest bardzo niewiele dowodów dotyczących związku między płynami ustrojowymi człowieka a przenoszeniem wirusa SARS-CoV-2. Znaczące dowody ze szpitala w Wuhan wskazują, że surowe zasady unikania zawodowego narażenia na płyny ustrojowe pacjentów w placówkach opieki zdrowotnej, szczególnie wśród każdego personelu medycznego, ograniczają przenoszenie zakażeń szpitalnych z osoby na osobę przez bezpośredni lub pośredni kontakt. WNIOSEK: Staraliśmy się dostarczyć ważnych informacji dla zrozumienia możliwych dr... [1,000 / 1,201 chars]
czy dystans społeczny miał wpływ na spowolnienie rozprzestrzeniania się COVID-19? [81 chars]Zwiększona wykrywalność w połączeniu z planowaniem dystansu społecznego i zdrowia Zmniejsz obciążenie przypadkami i ofiarami śmiertelnymi związanymi z COVID-19: badanie weryfikujące koncepcję przy użyciu stochastycznego modelu symulacji obliczeniowej Cel: W przypadku braku jakiejkolwiek szczepionki, pandemia wirusa Corona Virus 2019 (COVID-19) jest ograniczana za pomocą niefarmaceutycznego środka zwanego dystansem społecznym (SD). Jednak to, czy samo SD wystarczy do spłaszczenia krzywej epidemii, jest dyskusyjne. Korzystając ze stochastycznego modelu symulacji obliczeniowej, zbadaliśmy wpływ wzrastających wskaźników wykrywalności SD, łóżek szpitalnych i COVID-19 na zapobieganie przypadkom i zgonom związanym z COVID-19. Projekt i metody badawcze: Stochastyczny model symulacyjny został zbudowany przy użyciu pakietu EpiModel w języku R. Jako dowód słuszności koncepcji, przeprowadziliśmy symulację na Kasaragod, najbardziej dotkniętej dzielnicy Kerali. Do modelu SEIR dodaliśmy 3 przedziały,... [1,000 / 1,773 chars]

Source Reference Table

TitleYearTypeURL
BEIR-PL: Zero Shot Information Retrieval Benchmark for the Polish Language2024arXiv paperhttps://arxiv.org/abs/2305.19840
BEIR-PL: Zero Shot Information Retrieval Benchmark for the Polish Language2024ACL Anthology paperhttps://aclanthology.org/2024.lrec-main.194/
Searching for Scientific Evidence in a Pandemic: An Overview of TREC-COVID2021arXiv paperhttps://arxiv.org/abs/2104.09632
TREC-COVID data archive2020benchmark archivehttps://ir.nist.gov/trec-covid/
clarin-knextHugging Face publisherhttps://huggingface.co/clarin-knext

Dataset Information

FieldValue
Nano setNanoMedical
Backing datasetNanoMedical
Task / splitNanoTRECCOVIDPL
Hugging Face datasethakari-bench/NanoMedical
Languagepl
Categorynatural_language
Queries50
Documents10,000
Positive qrels50
Positives / query avg1.00
Positives / query min1
Positives / query median1.00
Positives / query max1
Multi-positive queries0 (0.00%)
Query length avg chars69.42
Document length avg chars1,251.91

Candidate Subsets

ProfileConfignDCG@10Hit@10Recall@100Candidates
BM25bm250.32660.44000.7000top-500
Denseharrier_oss_v1_270m0.35850.52000.8600top-500
Reranking hybridreranking_hybrid0.38640.54000.9600top-100

Training and Leakage Metadata