Pulse · AI 뉴스

의료 영상 추론의 오류 연쇄 차단: 단계별 강화 학습

Qwen · 2026-07-01

연구진은 의료 영상 추론 시 오류가 연쇄적으로 발생하는 현상을 분석하고, 이를 해결하기 위해 단계별 강화 학습 알고리즘인 MRPO를 제안했어요.

MRPO는 최종 답변이 틀린 경우, 초기 단계의 잘못된 추론 과정에 더 큰 페널티를 부여하여 오류 연쇄를 차단하고 성공적인 경로를 유지해요.

Qwen3-VL-8B-Instruct 모델에서 MRPO를 적용한 결과, HuatuoGPT-Vision-34B와 같은 더 큰 의료 MLLM보다 2.79점이 더 높은 성능을 보였으며, 초기 단계의 오류율도 크게 감소했어요.

##의료AI##강화학습##LLM##MRPO

매일 핵심 AI 소식을 한국어로, 빠르게