연구진은 의료 영상 추론 시 오류가 연쇄적으로 발생하는 현상을 분석했어요. 이를 해결하기 위해 단계별 보상 시스템을 적용한 강화 학습 알고리즘 MRPO를 제안했어요. MRPO는 Qwen3-VL-8B-Instruct 모델이 HuatuoGPT-Vision-34B보다 2.79점 더 높은 성능을 보이도록 개선했어요.
기존 방식은 최종 답변의 정확성만으로 평가했지만, MRPO는 초기 단계의 오류에 더 큰 페널티를 부여하여 오류 연쇄를 차단해요. 이를 통해 초기 추론 실패율을 64%에서 13%로 감소시켰어요.
MRPO는 세 가지 멀티모달 LLM 모델에서 GRPO와 다른 RL 기준 모델보다 우수한 성능을 보이며, 의료 분야의 정확한 추론과 최종 답변 정확도를 향상시키는 데 기여해요.