IBM 리서치에서 기업 환경과 유사한 워크플로우를 평가하는 새로운 벤치마크 VAKRA를 발표했습니다. VAKRA는 8,000개 이상의 API와 문서로 구성되어 있으며, 3~7단계의 추론 과정을 포함합니다.
VAKRA는 API 체이닝, 도구 선택, 멀티홉 추론 등 다양한 능력을 테스트하는 4가지 작업으로 구성되어 있으며, 각 작업은 1,500~2,000개 이상의 테스트 인스턴스를 포함합니다.
VAKRA는 기존 벤치마크와 달리 전체 실행 추적을 사용하여 에이전트의 신뢰성을 평가하며, 현재 모델들은 VAKRA에서 낮은 성능을 보이는 것으로 나타났습니다.