연구진이 비전-언어-액션 모델의 언어 기반 모델과 디퓨전 액션 헤드를 W4A4 정밀도로 양자화하는 훈련 불필요 프레임워크 Ω-QVLA를 공개했어요.
Ω-QVLA는 복합 SVD-Hadamard 회전과 단계별 디퓨전 액션 헤드 활성화 스케일링 양자화를 결합하여 동적 범위 드리프트를 흡수하고 안정적인 양자화를 가능하게 해요.
LIBERO 데이터셋에서 Pi 0.5와 GR00T N1.5 모델을 W4A4로 압축했을 때 작업 성공률이 각각 98.0%, 87.8%로 기존 FP16 모델과 유사한 성능을 보여줬어요.