Pulse · AI 뉴스

시각 음성 인식용 Diffusion Large Language Model (DLLM) 제안

DLLM-VSR · 2026-05-27

연구진이 시각 음성 인식(VSR) 분야에 Diffusion Large Language Model(DLLM) 기반 프레임워크인 DLLM-VSR을 처음으로 제안했어요.

DLLM-VSR은 신뢰도 기반 마스킹을 통해 높은 신뢰도를 가진 부분은 빠르게 결정하고, 모호한 부분은 양방향 맥락으로 개선하는 방식을 사용해요.

연구 결과, LRS3 데이터셋에서 19.5%의 WER(단어 오류율)을 달성하며 기존 방식 대비 우수한 성능을 보여줬어요.

##VSR##DiffusionLLM##AI##음성인식##연구

매일 핵심 AI 소식을 한국어로, 빠르게