Pulse · AI 뉴스

[논문] GEAR: 이미지 합성을 위한 가이드 엔드투엔드 오토레그레션

GEAR · 2026-07-04

Tencent Hunyuan이 이미지 합성을 위한 새로운 방식인 GEAR(Guided End-to-End AutoRegression)를 발표했어요. GEAR는 VQ 토크나이저와 AR 생성기를 공동으로 학습하여 표현 정렬을 가이드합니다.

기존 방식의 한계를 극복하기 위해, GEAR는 하드 브랜치와 소프트 브랜치를 활용하여 AR 모델이 토크나이저를 더 쉽게 예측할 수 있도록 돕습니다.

GEAR는 ImageNet gFID 수렴 속도를 최대 10배 향상시키고, 패치 레벨 및 공간적으로 일관된 특징을 학습하며, 다양한 양자화 방식과 텍스트-이미지 생성에 적용 가능합니다.

GEAR은 토크나이저의 특징을 DINOv2와 유사하게 만들지 않으면서 AR 모델의 특징은 DINOv2와 유사하게 만드는 방식으로, 기존 방식과는 다른 접근 방식을 취합니다.

GitHub에서 GEAR 코드를 확인할 수 있으며, Hugging Face에서 토크나이저를 사용할 수 있습니다.

##논문##이미지합성##GEAR##TencentHunyuan

매일 핵심 AI 소식을 한국어로, 빠르게