연구진은 다중 모드 이미지 융합에서 2D 그리드의 한계를 극복하기 위해 1D 토큰 인터페이스를 도입했어요. 이 방식은 이미지 수준의 전역적인 특징을 활용하면서도 2D 공간적 경로를 통해 지역 구조를 복원합니다.
Selective Token Editing(STE) 기술을 통해 소수의 핵심 토큰만 수정하여 전역적인 일관성을 유지하고 융합 백본을 변경하지 않도록 설계했어요. 이를 통해 불필요한 손실을 줄였어요.
실험 결과, 4개의 벤치마크에서 전반적으로 가장 우수한 성능을 보였으며, 전역적 일관성과 지역적 충실도 모두에서 꾸준한 개선을 이루었어요.