Pulse · AI 뉴스

의료 영상 추론의 오류 연쇄 차단: 단계별 강화 학습

Qwen · 2026-06-30

연구진은 의료 영상 추론 시 오류가 연쇄적으로 발생하는 현상을 분석했어요. 이를 해결하기 위해 단계별 보상 시스템을 적용한 강화 학습 알고리즘 MRPO를 제안했어요. MRPO는 Qwen3-VL-8B-Instruct 모델이 HuatuoGPT-Vision-34B보다 2.79점 더 높은 성능을 보이도록 개선했어요.

기존 방식은 최종 답변의 정확성만으로 평가했지만, MRPO는 초기 단계의 오류에 더 큰 페널티를 부여하여 오류 연쇄를 차단해요. 이를 통해 초기 추론 실패율을 64%에서 13%로 감소시켰어요.

MRPO는 세 가지 멀티모달 LLM 모델에서 GRPO와 다른 RL 기준 모델보다 우수한 성능을 보이며, 의료 분야의 정확한 추론과 최종 답변 정확도를 향상시키는 데 기여해요.

##의료AI##강화학습##LLM##MRPO

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기