연구진이 음성 에이전트의 정확도와 대화 경험을 동시에 평가하는 새로운 프레임워크 'EVA'를 공개했습니다.
EVA는 5가지 핵심 구성 요소로 이루어진 봇-대봇 오디오 아키텍처를 사용하며, 항공편 재예약, 취소 처리, 바우처 등 50개 시나리오를 포함하는 초기 데이터세트를 제공합니다.
EVA는 정확도(EVA-A)와 경험(EVA-X)을 측정하며, 작업 완료와 대화 경험 간의 균형을 중요하게 고려합니다.
연구 결과, 작업 완료 성능이 좋은 에이전트는 사용자 경험이 좋지 않고, 그 반대의 경우도 나타나는 정확도-경험 간의 균형 문제가 확인되었습니다.
EVA 프레임워크와 초기 결과, 데모는 웹사이트에서 확인할 수 있으며, 코드와 프롬프트는 GitHub에서 제공됩니다.