AutoMedBench는 의료 AI 연구 워크플로우를 지원하는 자율 에이전트의 성능을 평가하는 새로운 벤치마크입니다. 5단계 워크플로우(계획, 설정, 검증, 추론, 제출)로 구성되어 의료 영상 및 다중 모드 추론 작업을 수행합니다. 벤치마크는 세분화된 단계별 점수를 제공하여 에이전트의 행동을 분석할 수 있도록 설계되었습니다. 분석 결과, 검증 단계가 가장 취약하며, 오류 분석 결과 검증 및 제출 실패가 주요 원인으로 나타났습니다.
AutoMedBench는 세분화된 단계별 점수를 제공하여 에이전트의 행동을 분석할 수 있도록 설계되었습니다. Lite 및 Standard 난이도 티어로 구성되어 있으며, 각 실행은 평균 33회 에이전트 턴을 포함합니다. 세그멘테이션, 이미지 향상, 시각적 질문 답변, 보고서 생성, 병변 감지 등 5가지 연구 트랙을 포괄합니다.