연구진이 시각 음성 인식(VSR) 분야에 Diffusion Large Language Model(DLLM) 기반 프레임워크인 DLLM-VSR을 처음으로 제안했어요. DLLM-VSR은 신뢰도 기반 마스킹을 통해 높은 신뢰도를 가진 부분은 빠르게 결정하고, 모호한 부분은 양방향 맥락으로 개선하는 방식을 사용해요. 연구 결과, LRS3 데이터셋에서 19.5%의 WER(단어 오류율)을 달성하며 기존 방식 대비 우수한 성능을 보여줬어요.