Pulse · AI 뉴스

EVA-Bench: 음성 에이전트 평가를 위한 새로운 통합 프레임워크

EVA-Bench · 2026-05-14

EVA-Bench는 음성 에이전트의 성능을 평가하기 위한 새로운 프레임워크로, 현실적인 대화 시뮬레이션과 다양한 오류 모드 측정을 동시에 지원합니다.

EVA-A(정확도)는 작업 완료, 충실성, 음성 품질을 측정하고, EVA-X(경험)는 대화 흐름, 간결성, 응답 타이밍을 평가하는 복합 지표를 도입합니다.

EVA-Bench는 213가지 시나리오와 다양한 환경 강건성 테스트를 포함하며, 프레임워크, 평가 도구, 벤치마크 데이터를 오픈 소스로 공개했습니다.

##음성에이전트##평가##벤치마크##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기