Pulse · AI 뉴스

VideoMLA: 저랭크 잠재 KV 캐시를 활용한 초분 단위 자기회귀 비디오 확산

VideoMLA · 2026-05-29

연구진은 VideoMLA라는 새로운 멀티-헤드 잠재 어텐션(MLA) 기법을 제안하여 비디오 확산 모델의 KV 캐시 메모리를 획기적으로 줄였습니다.

VideoMLA는 각 헤드별 키와 값을 공유된 저랭크 콘텐츠 잠재와 3D-RoPE 위치 키로 대체하여 캐시된 레이어당 토큰별 KV 메모리를 92.7% 감소시켰습니다.

기존 언어 모델과는 달리 비디오 어텐션은 저랭크 스펙트럼을 갖지 않지만, VideoMLA는 품질 저하 없이 압축 비율을 높이고 VBench에서 우수한 성능을 달성했습니다.

##비디오##확산모델##어텐션##MLA##VBench

매일 핵심 AI 소식을 한국어로, 빠르게