Pulse · AI 뉴스

MedCTA: 임상 도구 에이전트 평가 벤치마크

MedCTA · 2026-06-10

연구진이 실제 임상 환경에서 의료 AI 에이전트의 성능을 평가하는 벤치마크 'MedCTA'를 공개했어요. MedCTA는 방사선 이미지, 병리 슬라이드, 보고서 등 다양한 멀티모달 임상 데이터를 활용해 107개의 실제 임상 과제를 포함하고 있어요. 18개의 모델을 평가한 결과, 최첨단 모델조차도 다단계 임상 도구 사용에서 불안정성을 보였으며, 프로토콜 실패, 조기 중단, 잘못된 도구 선택 등의 문제가 발생했어요.

MedCTA는 도구 선택, 논증 타당성, 실행 안정성, 경로 충실성, 결과 품질 등 프로세스 기반 평가를 지원하며, 의료 AI 에이전트의 신뢰성을 높이는 데 기여할 것으로 기대돼요. 벤치마크 데이터셋과 평가 도구는 GitHub에서 확인할 수 있어요.

##의료AI##벤치마크##에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기