연구팀은 의료 에이전트의 정확성, 안전성, 장기 추적 능력을 평가하는 새로운 벤치마크 MedMemoryBench를 개발했어요. 이 벤치마크는 실제 의료 환경을 반영한 2,000개 세션, 16,000개 상호작용 데이터를 포함하고 있어요.
기존 벤치마크와 달리 MedMemoryBench는 '평가-구축' 방식의 스트리밍 평가 프로토콜을 도입하여, 의료 에이전트의 동적 기억 축적 과정을 정확하게 반영하고 있어요.
벤치마크 결과, 현재 주류 아키텍처는 복잡한 의료 추론과 노이즈 저항력에서 심각한 성능 저하를 보여, 더욱 견고한 의료 에이전트 개발의 필요성을 강조하고 있어요.