연구진은 다중 모드 RLVR에서 사고-답변 불일치 문제를 분석하고 해결하기 위해 CORA를 제안했어요. 기존 방법은 시각적 오류에 집중했지만, 사고 과정과 답변 간의 의미적 불일치를 간과했어요. CORA는 사고-답변 간의 의미적 일관성을 RLVR에 도입하여 성능 향상과 더불어 신뢰성 있는 사고 과정을 제공해요.
연구 결과, CORA는 대표적인 다중 모드 추론 벤치마크에서 성능을 개선하고 사고-답변 불일치를 효과적으로 완화했어요. CORA는 GRPO 훈련 과정과 RLVR 평가 결과에서 지속적으로 나타나는 불일치 문제를 해결하는 데 기여했어요.
CORA는 가벼운 플러그 앤 플레이 일관성 보상 모델과 HRAS를 활용하여 사고와 답변의 일관성을 높이고, 기존 RLVR의 안정적인 훈련을 가능하게 해요.