GEAR(Guided End-to-End AutoRegression)는 벡터 양자화(VQ) 토크나이저와 오토레그레시브(AR) 생성기를 공동으로 학습하는 새로운 방법입니다.
GEAR는 토크나이저를 AR 모델의 표현과 정렬하여 토크나이저가 생성기가 쉽게 모델링할 수 있는 인덱스 분포를 학습하도록 유도합니다.
GEAR는 ImageNet gFID 수렴 속도를 LlamaGen-REPA 기준선보다 최대 10배 빠르게 하고, 더 나은 특징을 학습하며 다양한 양자화 방식에 적용 가능합니다.