Pulse · AI 뉴스

MedHorizon: 실제 의료 영상 분석을 위한 새로운 벤치마크 공개

MedHorizon · 2026-05-08

MedHorizon은 실제 임상 절차를 분석하기 위한 새로운 벤치마크로, 759시간 분량의 의료 영상을 포함하고 있습니다. 이 벤치마크는 희소한 증거를 이해하고 다단계 임상 추론을 평가하는 1,253개의 객관식 질문을 제공합니다.

현재 모델은 MedHorizon에서 41.1%의 정확도를 기록하며, 전체 절차를 이해하는 데 어려움을 겪고 있습니다. 이는 모델이 절차적 추론과 주의 산만 문제에 취약하기 때문입니다.

MedHorizon은 희소한 증거를 검색하고 완전한 임상 워크플로우를 분석하는 MLLM의 성능을 평가하는 데 활용될 수 있습니다.

##의료##영상##벤치마크##MLLM##임상
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기