Pulse · AI 뉴스

MedVIGIL: 의료 VLM의 신뢰성 평가 - 손상된 시각적 증거 하에서

MedVIGIL · 2026-05-09

MedVIGIL은 의료 영상-언어 모델(VLM)이 손상된 시각적 증거 하에서도 정확한 답변을 내놓는지 평가하는 새로운 벤치마크입니다. 모델이 답변의 근거가 실패했음을 인지하는 능력은 임상 환경에서 신뢰성을 확보하는 데 중요합니다.

MedVIGIL은 네이버의 의료 VQA 소스에서 추출된 300개의 사례로 구성되었으며, 4명의 전문의가 직접 제작했습니다. 골드 답변, 거절 옵션, 후보 답변 세트, 잘못된 전제 함정, ROI 박스, 임상 위험 수준 등을 포함합니다.

독립적인 방사선 전문의는 MedVIGIL의 종합 점수(MCS)를 83.3점으로 평가했으며, 이는 현재 가장 높은 점수를 기록한 모델인 Claude Opus 4.7(69.2점)보다 14.1점 높은 수치입니다.

##의료##AI##벤치마크##VLMs##MedVIGIL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기