연구진은 LLM 기반 에이전트의 툴 사용 능력 평가 시 시간적 요소를 고려하지 않았던 기존 방식의 한계를 지적하며, 멀티태스킹 환경에서의 비동기 툴 호출 능력을 평가하는 벤치마크 AsyncTool을 제안했어요.
AsyncTool은 다양한 툴 응답 지연을 시뮬레이션하며, 여러 이질적인 작업을 동시에 수행하는 환경에서 에이전트의 성능을 평가하고, 작업 조정 및 완료 효율성을 측정하는 효율성 지표를 도입했어요.
실험 결과, 툴 응답 지연은 현재 에이전트의 성능 저하를 유발하며, 작업 전환, 의존성 추적, 상태 관리를 효율적으로 수행하는 모델이 AsyncTool에서 더 높은 성능을 보였어요.