연구진이 시각 정보 변화를 추적하는 Stateful 시각 인코더를 개발했어요. 이 인코더는 이전 시각 정보를 활용해 현재 시각 정보를 처리합니다. 실험 결과, 이미지 비교, 객체 차이 분석, 시각적 경로 복제 등에서 성능이 향상됐어요.
Stateful 시각 인코더는 입력 해상도, 언어 모델 크기, VLM 백본에 관계없이 일관된 성능 향상을 보입니다. 장기 영상 촬영, 미세 이미지 비교, 원격 감지 등 실제 환경에서도 기존 모델보다 우수한 성능을 냈어요.