SelfBootTok은 이미지 토큰화 과정에서 불필요한 정보 혼합 문제를 해결하는 새로운 방법입니다. 이 방법은 글로벌과 로컬 토큰 그룹으로 정보를 분리하여 생성 모델의 효율성을 높입니다. SelfBootTok은 로컬 디테일을 글로벌 토큰만으로 예측하여 생성 모델의 부담을 줄이고, 계산량을 약 40% 감소시킵니다.
기존 방식 대비 SelfBootTok은 gFID 점수 1.56으로 최고 성능을 달성하며, 64개의 토큰만으로도 뛰어난 결과물을 생성합니다. 이는 더 많은 데이터나 파라미터를 활용하여 로컬 표현 학습을 자율적으로 학습하는 방식 덕분입니다. SelfBootTok은 확장성이 뛰어나, 더 많은 데이터나 파라미터를 활용하여 성능을 더욱 향상시킬 수 있습니다.