EComAgentBench는 LLM 기반 쇼핑 에이전트의 장기 과제 수행 능력을 평가하기 위해 662개의 실제 Amazon 제품 및 리뷰 기반 과제를 포함하는 새로운 벤치마크입니다. 에이전트는 숨겨진 의도를 파악하고, 후보 제품을 검증하며, 100번의 도구 호출 내에 제품을 선택해야 합니다. 각 과제는 명시적인 질문, 도구로 제한된 프로필, 스크립트된 명확화에 의도를 분산시켜 에이전트에게 장기적인 도전을 제시합니다.
7개의 모델 평가 결과, 가장 뛰어난 모델조차 57.1%의 정확도에 그쳤으며, 명시적인 소스에서 숨겨진 소스로 갈수록 만족도가 감소했습니다. EComAgentBench는 쇼핑 에이전트가 단일 쿼리 검색에서 장기적인 지원으로 발전하는 데 도움이 될 것입니다.
벤치마크는 자동화되어 신뢰할 수 있으며, 모든 답변은 코드로 고정되고 모든 샘플이 검증됩니다.