연구진은 LLM 기반 에이전트 시스템의 결제 워크플로우 성능을 평가하기 위해 기존 지표의 한계를 지적하고, 에이전트 실행 순서의 정확성을 측정하는 새로운 지표인 ASR(Agentic Success Rate)을 제시했습니다.
HMASP 시스템을 통해 18개의 LLM 모델을 분석한 결과, 10개 모델이 결제 과정에서 확인 단계를 누락하는 문제를 발견했으며, 이는 기존 지표로는 파악할 수 없는 오류였습니다.
ASR 지표를 활용한 프롬프트 개선 및 라우팅 제어는 이전에는 성능이 낮았던 모델의 성공률을 최대 +93.8%까지 향상시키는 효과를 보여주었습니다.