연구진은 LLM 에이전트의 도구 통합 추론(TIR) 성능을 평가하는 ToolMaze 벤치마크를 발표했어요. ToolMaze는 도구 실패 상황에서 동적 경로 발견 및 오류 복구 능력을 측정하도록 설계됐어요.
평가 결과, 도구 오류는 대부분의 모델 성능을 저하시키며, 특히 의미 기반 오류에서 성능이 크게 떨어지는 것으로 나타났어요. Perturbation Recovery Rate(PRR)는 약 37% 감소했어요.
모델 크기가 커져도 동적 재계획 능력은 기본적인 작업 실행 속도보다 3.66배 느리게 개선돼, 재계획이 별도의 병목 현상임을 보여줬어요.