MPerS는 원격 감지 장면 분할을 위한 동적 MLLM 전문가 혼합, 인지 기반 방식을 제안합니다. LLaVA, ChatGPT, Qwen 등 MLLM을 활용하여 고품질 원격 감지 장면 설명을 생성하고, 다양한 전문가 관점에서 장면을 인식합니다. DINOv3를 사용하여 지표 피복의 밀집 시각적 표현을 추출하고, 언어 쿼리 기반 주의 메커니즘을 통해 시각적 특징을 정밀하게 분할합니다.