Pulse · AI 뉴스

PRISM: 멀티모달 강화 학습을 위한 블랙박스 온정책 증류를 통한 사전 정렬

Qwen · 2026-05-01

연구진은 대규모 멀티모달 모델(LMM)의 훈련 과정에서 발생하는 데이터 분포 편이를 완화하는 PRISM 파이프라인을 소개했어요.

PRISM은 지도 학습(SFT)과 강화 학습(RLVR) 사이에 분포 정렬 단계를 삽입하여 모델의 원래 성능을 유지하고 지도 데이터 분포에 충실하도록 설계되었어요.

Qwen3-VL 모델 실험 결과, PRISM은 다양한 강화 학습 알고리즘과 벤치마크에서 SFT-RLVR 기준선보다 평균 정확도를 4.4~6.0% 향상시켰어요.

##멀티모달##강화학습##증류##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게