연구진이 Seamless Interaction 데이터셋을 활용해 음성 운율 및 리듬 평가를 위한 참조 체계를 구축했어요. $F_0$, 발화 속도, 조음 속도, 일시 정지 등 6가지 지표에 대해 참조 데이터를 생성하고, S2S 출력과 비교하는 평가 프로토콜을 정의했어요. 매칭 참조 데이터는 인간 참조 데이터의 5번째-95번째 백분위수 벗어남 여부를 판단하여 평가하며, 기존 방식보다 더 정확한 평가가 가능해요.
기존 방식은 인간의 평균 통계를 활용하여 평가했으나, 모델 예측 화자 특성 및 상호 작용 상태에 따라 적절하지 않을 수 있었어요. 새로운 평가 방식은 행동 가능성 점검으로, 인간의 지각 평가 및 사용자 중심 평가를 보완하는 역할을 해요.