Pulse · AI 뉴스

시각적 토큰화: 다층 표현 융합을 통한 성능 향상

DRoRAE · 2026-05-12

연구진은 기존 시각적 토크나이저가 마지막 레이어의 정보만 활용하여 중간 레이어의 계층적 정보를 버리는 문제를 해결하기 위해 DRoRAE(Depth-Routed Representation AutoEncoder)를 제안했습니다.

DRoRAE는 에너지 제약 기반 라우팅을 통해 모든 레이어의 특징을 융합하여 풍부한 잠재력을 생성하며, 이를 통해 ImageNet-256에서 rFID를 0.57에서 0.29로 감소시키고 생성 FID를 1.74에서 1.65로 개선했습니다.

연구 결과, 융합 용량과 재구성 품질 사이에 로그 선형 스케일링 법칙이 존재하며, 이는 시각적 토크나이저의 새로운 확장 가능한 차원인 '표현 풍부함'을 나타냅니다.

##컴퓨터비전##이미네이션##Autoencoder##DRoRAE##표현융합
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기