마이크로소프트가 복잡한 의료 환경에서 AI 에이전트의 성능을 평가하는 HealthAgentBench를 공개했어요. HealthAgentBench는 환자 여정 전반의 54가지 작업으로 구성되며, 다양한 워크플로우와 의료 데이터를 활용합니다. GPT-5.5를 포함한 최첨단 에이전트도 42%의 낮은 성공률을 기록하며, 의료 영상 처리와 복합적인 추론 작업이 어렵다는 것을 보여줬어요.