Pulse · AI 뉴스

AutoMedBench: 의료 자동 연구를 위한 에이전트 AI 모델 벤치마크

AutoMedBench · 2026-06-01

AutoMedBench는 의료 AI 연구 워크플로우를 지원하는 자율 에이전트의 성능을 평가하는 새로운 벤치마크입니다. 5단계 워크플로우(계획, 설정, 검증, 추론, 제출)로 구성되어 의료 영상 및 다중 모드 추론 작업을 수행합니다. 벤치마크는 세분화된 단계별 점수를 제공하여 에이전트의 행동을 분석할 수 있도록 설계되었습니다. 분석 결과, 검증 단계가 가장 취약하며, 오류 분석 결과 검증 및 제출 실패가 주요 원인으로 나타났습니다.

AutoMedBench는 세분화된 단계별 점수를 제공하여 에이전트의 행동을 분석할 수 있도록 설계되었습니다. Lite 및 Standard 난이도 티어로 구성되어 있으며, 각 실행은 평균 33회 에이전트 턴을 포함합니다. 세그멘테이션, 이미지 향상, 시각적 질문 답변, 보고서 생성, 병변 감지 등 5가지 연구 트랙을 포괄합니다.

##의료AI##에이전트##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기