연구진은 복잡한 상호 의존적인 도구 환경에서 LLM 에이전트의 성능을 평가하는 벤치마크 'ComplexMCP'를 공개했어요. ComplexMCP는 7개의 상태 기반 샌드박스에서 추출한 300개 이상의 도구를 사용하며, 동적 환경 상태와 API 오류를 시뮬레이션하여 현실적인 평가를 제공합니다.
ComplexMCP 평가 결과, 최상위 모델조차도 60%의 성공률을 넘지 못하며, 이는 인간의 90% 성능에 크게 미치지 못하는 수치라고 해요. 분석 결과, 도구 검색 포화, 과신, 전략적 포기 등의 문제가 주요 원인으로 지목되었습니다.
연구진은 ComplexMCP가 상호 의존적인 워크플로우에 적합한 회복탄력적인 자율 시스템 개발을 위한 중요한 테스트베드라고 강조하며, 현재 에이전트의 한계를 보여주는 결과라고 설명합니다.