Pulse · AI 뉴스

HealthAgentBench: 현실적인 의료 환경 에이전트 벤치마크 공개

OpenAI · 2026-06-30

마이크로소프트가 복잡한 의료 환경에서 AI 에이전트의 성능을 평가하는 HealthAgentBench를 공개했어요.

HealthAgentBench는 환자 여정 전반의 54가지 작업으로 구성되며, 다양한 워크플로우와 의료 데이터를 활용합니다.

GPT-5.5를 포함한 최첨단 에이전트도 42%의 낮은 성공률을 기록하며, 의료 영상 처리와 복합적인 추론 작업이 어렵다는 것을 보여줬어요.

##에이전트##의료##벤치마크##GPT-5.5##HealthAgentBench

매일 핵심 AI 소식을 한국어로, 빠르게