Pulse · AI 뉴스

HealthAgentBench: 현실적인 의료 환경 에이전트 벤치마크 공개

OpenAI · 2026-06-30

연구팀이 복잡한 의료 환경에서 AI 에이전트 성능을 평가하는 HealthAgentBench를 공개했어요. 54개의 의료 작업으로 구성된 이 벤치마크는 환자 여정 전반의 다양한 워크플로우를 포함해요.

GPT-5.5를 포함한 최첨단 에이전트도 HealthAgentBench에서 낮은 성공률(약 42%)을 기록하며, 의료 영상 처리 등 어려운 과제가 남아있음을 보여줬어요.

HealthAgentBench는 연구 모델링 파이프라인 개발에는 가능성을 보였지만, 복합적인 추론이 필요한 작업은 전반적으로 어려움을 겪는 것으로 나타났어요.

연구팀은 HealthAgentBench를 GitHub에 공개하여, AI 에이전트 개발의 지속적인 발전을 위한 도구로 활용될 수 있도록 지원할 예정이에요.

##에이전트##벤치마크##의료##GPT-5.5
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기