연구진은 원격 감지 시각 질의 응답(RSVQA)에 적합한 프레임워크를 개발했어요. CLIP, BLIP, FLAVA 등 다양한 VLM 아키텍처에 PEFT 전략인 RS Adapter를 적용했어요. RSVQA x 데이터셋 실험 결과, 하이브리드 FLAVA 아키텍처가 다중 모드 추론 능력에서 우수했어요.
RS Adapter는 기존 모델의 5% 미만의 파라미터만 학습시켜 빠른 적응을 가능하게 해요. 이는 재난 평가 및 도시 모니터링에 필요한 효율적인 VQA 시스템 구축에 기여할 수 있어요.
연구는 원격 감지 이미지의 고해상도, 다중 스케일 객체 분포, 복잡한 의미적 맥락을 고려한 새로운 기준점을 제시했어요.