MedHopQA는 LLM의 생의학 분야 추론 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크의 한계를 극복하기 위해 질병 중심의 다중 홉 추론 질문 1,000개를 포함하고 있습니다.
각 질문은 두 개의 위키피디아 문서를 종합하여 답변해야 하며, MONDO, NCBI Gene, NCBI Taxonomy를 활용한 동의어 세트가 함께 제공됩니다.
MedHopQA는 벤치마크와 함께 향후 생의학 QA 데이터셋 구축을 위한 프레임워크로 활용될 예정이며, 10,000개의 질문 세트를 CodaBench 리더보드에 공개했습니다.