OrbitQuant은 이미지·비디오 디퓨전 트랜스포머의 추론 비용을 줄이기 위한 데이터 불감증 양자화 기법입니다.
기존 방식과 달리, OrbitQuant은 입력에 상관없이 고정된 기준점을 사용해 모든 시간 단계, 프롬프트, 레이어에 대해 단일 코드북을 적용합니다.
FLUX.1, Z-Image-Turbo, Wan 2.1, CogVideoX 등 다양한 모델에서 최첨단 PTQ 성능을 달성했으며, 이미지 디퓨전 트랜스포머의 W2A4 양자화도 가능하게 합니다.