Pulse · AI 뉴스

2D 그리드에서 1D 토큰으로: 다중 모드 이미지 융합을 위한 공유 표현 방식 재편

zju-xyc · 2026-06-10

연구진은 다중 모드 이미지 융합 시 2D 그리드의 한계를 극복하기 위해 1D 토큰 인터페이스를 활용하는 새로운 방식인 STE(Selective Token Editing)를 제안했어요.

STE는 이미지 토크나이저의 1D 토큰 공간을 활용해 이미지 수준의 전역적인 표현을 모델링하고, 2D 공간 경로는 로컬 구조 복원에 사용돼요.

4개의 벤치마크 실험 결과, STE는 전반적으로 가장 우수한 성능을 보이며, 전역 일관성과 로컬 충실도 모두에서 개선된 결과를 보여줬어요.

##이미지융합##다중모드##토크나이저##STE

매일 핵심 AI 소식을 한국어로, 빠르게