사용자들은 STT 점수, 지연 시간, 작업 완료율이 괜찮아도 대화가 답답하거나 부자연스러울 수 있어요. 작은 타이밍 실수나 반복적인 확인이 누적되어 사용자 행동에 영향을 미치는 등, 기존 벤치마크로는 파악하기 어려운 문제들이 발생해요. 실제 상호작용을 대량으로 테스트하면서 음성 디버깅이 더 유용해졌고, 반복적인 대화 패턴을 파악하는 데 집중하고 있어요.