Pulse · AI 뉴스

EComAgentBench: 장기 과제에서 숨겨진 의도 파악하는 쇼핑 에이전트 벤치마크

EComAgentBench · 2026-06-16

EComAgentBench는 LLM 기반 쇼핑 에이전트의 장기 과제 수행 능력을 평가하기 위해 662개의 실제 Amazon 제품 및 리뷰 기반 과제를 포함하는 새로운 벤치마크입니다. 에이전트는 숨겨진 의도를 파악하고, 후보 제품을 검증하며, 100번의 도구 호출 내에 제품을 선택해야 합니다. 각 과제는 명시적인 질문, 도구로 제한된 프로필, 스크립트된 명확화에 의도를 분산시켜 에이전트에게 장기적인 도전을 제시합니다.

7개의 모델 평가 결과, 가장 뛰어난 모델조차 57.1%의 정확도에 그쳤으며, 명시적인 소스에서 숨겨진 소스로 갈수록 만족도가 감소했습니다. EComAgentBench는 쇼핑 에이전트가 단일 쿼리 검색에서 장기적인 지원으로 발전하는 데 도움이 될 것입니다.

벤치마크는 자동화되어 신뢰할 수 있으며, 모든 답변은 코드로 고정되고 모든 샘플이 검증됩니다.

##에이전트##벤치마크##쇼핑
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기