Pulse · AI 뉴스

GEAR: 이미지 합성을 위한 가이드형 엔드투엔드 오토레그레션

GEAR · 2026-07-01

GEAR(Guided End-to-End AutoRegression)는 이미지 합성을 위해 벡터 양자화(VQ) 토크나이저와 오토레그레시브(AR) 생성기를 공동으로 학습하는 새로운 방법입니다. 토크나이저가 생성기의 모델링 용이성을 인지하도록 설계되어 기존 방식의 한계를 극복합니다.

GEAR는 코드북 할당의 이중 읽기 방식을 통해 비차분 가능한 VQ 인덱스 문제를 해결합니다. 하드 브랜치는 다음 토큰 예측으로 AR 모델을 학습하고, 소프트 브랜치는 토크나이저를 가이드하는 표현-정렬 손실을 전달합니다.

GEAR는 ImageNet gFID 수렴 속도를 최대 10배 가속화하고, 더 나은 패치 수준 및 공간적으로 일관된 특징을 학습하며, 다양한 양자화 방식과 텍스트-이미지 생성에도 적용 가능합니다.

##이미지합성##생성모델##GEAR##VQ##AR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기