연구진이 Wan2.2-I2V 모델의 W4A4 양자화 성능을 개선하는 새로운 프레임워크를 제안했어요. 이 프레임워크는 SVDQuant 기반 아웃라이어 보상, GPTQ 기반 가중치 양자화, 그리고 timestep-bin-wise 클리핑 비율 검색을 결합했어요.
기존 방식의 한계인 아웃라이어 문제와 timestep 의존성을 해결하고, MoE 구조의 각 전문가에 맞는 개별 양자화 정책을 적용했어요. OpenS2V-Eval 벤치마크에서 BF16 대비 GPU 메모리 59.3% 감소 효과를 확인했어요.
평균 VBench 점수는 0.9%, 이미지 품질은 2.3% 감소하는 데 그쳐, 전문가 및 timestep 인지 양자화의 중요성을 입증했어요.