IBM Research가 AI 에이전트 시스템의 성능을 평가하는 오픈 벤치마크 'Open Agent Leaderboard'를 공개했어요. 기존 벤치마크는 모델 성능만 평가했지만, 이번 벤치마크는 모델, 도구, 계획, 기억, 복구 기능을 포함한 전체 시스템을 평가합니다.
Open Agent Leaderboard는 다양한 실제 작업 환경을 시뮬레이션하는 6개의 벤치마크를 사용하며, 품질과 비용을 모두 측정하여 실제 배포 가능성을 판단하는 데 도움을 줍니다.
벤치마크는 코딩, 고객 서비스, 기술 지원, 개인 비서, 연구 등 다양한 분야를 포괄하며, 각 벤치마크는 통일된 프로토콜을 통해 평가되어 모델과 에이전트 간의 호환성을 높였습니다. Exgentic 프레임워크를 통해 평가 결과를 재현할 수 있으며, 관련 논문도 함께 공개되었습니다.