연구진은 의료 영상 추론 시 오류가 연쇄적으로 발생하는 현상을 분석하고, 이를 해결하기 위해 단계별 강화 학습 알고리즘인 MRPO를 제안했어요.
MRPO는 최종 답변이 틀린 경우, 초기 단계의 잘못된 추론 과정에 더 큰 페널티를 부여하여 오류 연쇄를 차단하고 성공적인 경로를 유지해요.
Qwen3-VL-8B-Instruct 모델에서 MRPO를 적용한 결과, HuatuoGPT-Vision-34B와 같은 더 큰 의료 MLLM보다 2.79점이 더 높은 성능을 보였으며, 초기 단계의 오류율도 크게 감소했어요.