Pulse · AI 뉴스

이미지 생성 시 구면 흐름 매칭을 위한 잠재 기하학 정렬

arXiv cs.CV · 2026-05-15

연구진은 잠재 흐름 매칭을 통해 이미지 생성 시, 가우시안 노이즈를 변분 오토인코더 잠재 공간으로 선형 경로를 따라 이동시키는 기존 방식의 문제점을 개선했어요. 데이터 잠재 토큰을 방사형 및 각도 성분으로 분해하여, 시각적·의미적 콘텐츠가 주로 방향에 의해 전달된다는 점을 확인했어요.

연구진은 데이터 잠재 위치를 고정된 토큰 반지름으로 투영하고, 가우시안 노이즈의 방사형 투영을 구면 사전으로 사용하며, 디코더를 고정된 인코더 상태로 미세 조정하고, 선형 보간을 구면 선형 보간으로 대체했어요. 이를 통해 모든 타임스텝에서 경로가 구면을 유지하고, 속도 목표가 순수하게 각도 방향이 되도록 설계했어요.

이 방법은 다양한 이미지 토크나이저에서 ImageNet-256 FID를 지속적으로 개선하며, 확산 아키텍처를 변경하지 않고, 추가적인 인코더 또는 표현 정렬 목표 없이도 작동해요.

##이미지생성##잠재흐름매칭##구면기하학##ImageNet
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기