연구진은 텍스트 기반 도구 호출 벤치마크를 음성 기반 평가로 변환하는 프레임워크를 개발하여 음성 에이전트의 도구 사용 신뢰성을 높이고자 했습니다.
Confetti 및 When2Call 데이터셋을 음성으로 변환하여 7개 모델을 평가한 결과, 모델 및 작업에 따라 성능 차이가 컸으며, Gemini-3.1-Flash-Live는 Confetti에서, GPT-Realtime-1.5는 When2Call에서 가장 좋은 성능을 보였습니다.
연구 결과, 오픈 소스 Qwen3 모델이 8B 파라미터 이상일 경우, 독점적인 평가 모델과 80% 이상의 일치도를 보여주며 개인 정보 보호 평가를 지원하는 것으로 나타났습니다.