Pulse · AI 뉴스

Vision Foundation Models 기반 이미지 생성용 범용 토크나이저 개발

VFMTok · 2026-05-18

Vision Foundation Models (VFM)를 활용해 이미지 생성용 범용 토크나이저 VFMTok을 개발했어요.

VFMTok은 기존 방식 대비 합성 품질을 향상시키고 토큰 효율성을 극대화하며, ImageNet class-conditional synthesis에서 gFID 1.36을 달성했어요.

VFM 토크나이저 설계 시 self-supervised learning 목표가 중요하며, global contrastive learning과 latent masked image modeling을 함께 사용한 VFM이 최적의 성능을 낸다는 사실을 발견했어요.

##이미지생성##토크나이저##VFM##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기