SkyNative는 원격 감지 시각-언어 모델의 공간 추론 성능을 개선하기 위해 사전 학습된 시각 인코더 없이 이미지 패치를 언어 모델 토큰 공간에 직접 표현하는 네이티브 멀티모달 프레임워크입니다. 모달리티별 파라미터를 활용한 분리 메커니즘을 통해 시각 패치와 텍스트 토큰을 조화롭게 연결합니다. SkyNative는 시각 증거 기반 추론 능력을 평가하는 새로운 벤치마크를 도입하여 모델의 신뢰성을 진단합니다.
표준 원격 감지 이해 작업과 대형 포맷 공간 추론 평가에서 SkyNative는 이미지 기반 인식 능력이 뛰어나고 프롬프트 유도 언어 편향에 대한 강건성을 향상시켰습니다.
SkyNative는 기존 방식의 한계를 극복하고 원격 감지 분야에서 보다 정확하고 신뢰성 있는 시각-언어 모델 개발에 기여할 것으로 기대됩니다.