연구진은 자동 음성 인식(ASR) 기록의 불분명한 발음을 수정하는 새로운 파이프라인을 제안했습니다. 이 파이프라인은 시퀀스 태거를 사용하여 불분명한 토큰을 표시하고, LLM을 지침에 따라 조정하여 텍스트를 유창하게 다시 작성합니다.
모델의 신뢰성을 높이기 위해, 연구진은 불분명한 토큰을 재현하는 것을 방지하는 대비 학습 목표를 추가하여 문법과 의미를 보존하면서 불분명한 요소를 제거하도록 장려했습니다.
힌디어, 벵골어, 마라티어를 포함한 세 가지 인도 언어에 대한 실험 결과, 강력한 기본 모델보다 성능이 향상되었으며, 코드도 공개되었습니다.