MedHorizon은 실제 임상 절차를 분석하기 위한 새로운 벤치마크로, 759시간 분량의 의료 영상을 포함하고 있습니다. 이 벤치마크는 희소한 증거를 이해하고 다단계 임상 추론을 평가하는 1,253개의 객관식 질문을 제공합니다.
현재 모델은 MedHorizon에서 41.1%의 정확도를 기록하며, 전체 절차를 이해하는 데 어려움을 겪고 있습니다. 이는 모델이 절차적 추론과 주의 산만 문제에 취약하기 때문입니다.
MedHorizon은 희소한 증거를 검색하고 완전한 임상 워크플로우를 분석하는 MLLM의 성능을 평가하는 데 활용될 수 있습니다.