멀티모달 LLM(MLLM)은 긴 꼬리 분포의 숫자 회귀에서 어려움을 겪습니다. 기존의 토큰 수준 감독 미세 조정(SFT)과 점별 회귀 보상은 고밀도 영역으로 학습을 편향시켜 평균 회귀 현상을 유발하고 꼬리 성능을 저하시킵니다.
본 연구에서는 샘플 간 관계 감독 부족을 주요한 한계점으로 지적하며, Concordance Correlation Coefficient 기반의 비교 기반 감독을 도입하여 예측-실제 분포 간 상관 관계, 크기, 평균을 정렬하는 Group Relative Policy Optimization 기반의 분포 인식 강화 학습 프레임워크를 제안합니다.
실험 결과, SFT 및 기존 MLLM 회귀 방법 대비 일관된 성능 향상을 보였으며, 특히 적은 샘플 환경에서 큰 개선을 달성했습니다.