연구진은 시각-언어 추론 학습 시, 전역적인 신뢰도 보상 방식이 시각적 단계의 신호를 왜곡하여 비효율적임을 발견했어요.
PDCR(Perception-Decomposed Confidence Reward)은 비지도 기술 분해를 통해 시각 의존도를 측정하고, 시각 및 추론 단계를 분리하여 신뢰도 이득을 클러스터별로 정규화하는 프레임워크예요.
PDCR은 시각-언어 추론 벤치마크에서 기존 방식보다 뛰어난 성능을 보여주며, 시각적 의존도를 고려한 보상 구조의 중요성을 강조했어요.