연구진은 다중 모드 이미지 융합 시 2D 그리드의 한계를 극복하기 위해 1D 토큰 인터페이스를 활용하는 새로운 방식인 STE(Selective Token Editing)를 제안했어요.
STE는 이미지 토크나이저의 1D 토큰 공간을 활용해 이미지 수준의 전역적인 표현을 모델링하고, 2D 공간 경로는 로컬 구조 복원에 사용돼요.
4개의 벤치마크 실험 결과, STE는 전반적으로 가장 우수한 성능을 보이며, 전역 일관성과 로컬 충실도 모두에서 개선된 결과를 보여줬어요.