Amazon이 Nova Sonic Test Harness 오픈 소스 프레임워크를 공개했어요. 이 프레임워크는 시스템 프롬프트와 도구 설정을 빠르게 반복하고 음성 에이전트 품질을 대규모로 검증하는 데 사용돼요. LLM을 활용해 음성 에이전트의 대화 결과를 평가하고, 오디오 출력이 텍스트와 일치하지 않는 오류(오디오 환각)를 감지할 수 있어요.
Nova Sonic Test Harness는 완전한 다중 턴 대화를 자동으로 실행하고, LLM-as-judge 기술을 활용해 결과를 평가해요. 이를 통해 시스템 프롬프트와 도구 설정을 반복적으로 개선할 수 있어요. 마이크 없이도 음성 에이전트 품질을 평가할 수 있다는 점이 특징이에요.
이 프레임워크는 빠른 반복 도구와 종합적인 평가 프레임워크로 기능하며, 음성 에이전트 개발 효율성을 높이는 데 기여할 것으로 기대돼요.