Pulse · AI 뉴스

AutoMedBench: 의료 자율 연구를 위한 벤치마크

AutoMedBench · 2026-06-01

AutoMedBench는 의료 AI 연구 워크플로우를 평가하는 새로운 벤치마크입니다. 계획, 설정, 검증, 추론, 제출의 5단계 워크플로우로 구성되어 있습니다. 의료 영상 및 다중 모드 추론 작업에 걸쳐 에이전트의 행동을 분석합니다. 검증 단계가 가장 취약하며, 설정 단계가 가장 강하다는 결과가 나왔습니다.

AutoMedBench는 난이도에 따라 Lite 및 Standard 티어로 나뉘며, 각 실행은 평균 33번의 에이전트 턴을 포함합니다. 세그멘테이션, 이미지 향상, VQA, 보고서 생성, 병변 검출 등 5가지 연구 트랙을 포함합니다.

검증 및 제출 실패가 전체 오류의 75.8%를 차지하며, 작업 이해 오류는 0.9%에 불과합니다. 오류 코드가 있는 실행은 오류가 없는 실행보다 평균 점수가 48% 낮습니다.

AutoMedBench는 의료 AI 연구 워크플로우의 약점을 파악하고, 더 나은 에이전트 개발을 위한 기반을 제공합니다.

##의료AI##에이전트##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기