연구진은 LLM 기반 에이전트의 도구 활용 추론 능력을 평가하는 AgentEscapeBench를 발표했습니다. 이 벤치마크는 에이전트가 복잡한 의존성 그래프를 가진 문제를 해결하며, 외부 도구를 사용하고 상태를 추적하는 능력을 테스트합니다.
AgentEscapeBench는 5개의 난이도 단계로 구성된 270개의 인스턴스를 포함하며, 인간과 LLM 에이전트의 성능을 비교한 결과, 난이도가 높아질수록 성능이 급격히 저하되는 것을 확인했습니다.
실험 결과, 현재 에이전트는 국지적인 도구 사용에는 능숙하지만, 깊은 문맥적 의존성을 처리하는 데 어려움을 겪는 것으로 나타났으며, 이 벤치마크가 에이전트의 능력을 진단하고 훈련하는 데 도움이 될 것으로 기대됩니다.