연구진이 6가지 센서 모달리티(광학, SAR, 적외선, 다중 분광, 시간, 비디오)를 통합하고 9가지 작업 범주에서 교차 센서 융합을 지원하는 20억 파라미터 RS-MLLM인 Earth-OneVision을 공개했어요.
Earth-OneVision은 Full-Granularity Vision-Language Alignment(FGVLA), Spatial-Linguistic Isomorphic Serialization(SLIS), Progressive Cross-Modality Adaptation(PCMA)의 세 가지 메커니즘을 통해 성능을 향상시켰어요.
Earth-OneVision은 3400만 개의 QA 페어를 활용하여 훈련되었으며, 광학 시각적 기반에서 87.52%의 [email protected], SAR VQA 벤치마크에서 80.68%의 정확도를 달성하며 70억 모델을 능가했어요.