PolarVLM은 시각-언어 모델의 광학적 모호성 문제를 해결하기 위해 편광 이미징 데이터를 통합한 최초의 프레임워크입니다. PolarVLM은 이중 스트림 아키텍처와 점진적인 2단계 학습 전략을 통해 물리적 오해를 방지하고 일반적인 시각 능력을 유지합니다. PolarVLM은 편광 인지 VQA 벤치마크 PolarVQA를 함께 구축하여 반사 인식 및 유리 계수에서 각각 26.6%, 34.0%의 성능 향상을 보였습니다.