EVA-Bench는 음성 에이전트의 성능을 평가하기 위한 새로운 프레임워크로, 현실적인 대화 시뮬레이션과 다양한 오류 모드 측정을 동시에 지원합니다.
EVA-A(정확도)는 작업 완료, 충실성, 음성 품질을 측정하고, EVA-X(경험)는 대화 흐름, 간결성, 응답 타이밍을 평가하는 복합 지표를 도입합니다.
EVA-Bench는 213가지 시나리오와 다양한 환경 강건성 테스트를 포함하며, 프레임워크, 평가 도구, 벤치마크 데이터를 오픈 소스로 공개했습니다.