Pulse · AI 뉴스

MLLM의 분포 인식 강화: 강화 학습을 통한 불균형 회귀 개선

arXiv cs.CL · 2026-05-02

멀티모달 LLM(MLLM)은 긴 꼬리 분포의 숫자 회귀에서 어려움을 겪습니다. 기존의 토큰 수준 감독 미세 조정(SFT)과 점별 회귀 보상은 고밀도 영역으로 학습을 편향시켜 평균 회귀 현상을 유발하고 꼬리 성능을 저하시킵니다.

본 연구에서는 샘플 간 관계 감독 부족을 주요한 한계점으로 지적하며, Concordance Correlation Coefficient 기반의 비교 기반 감독을 도입하여 예측-실제 분포 간 상관 관계, 크기, 평균을 정렬하는 Group Relative Policy Optimization 기반의 분포 인식 강화 학습 프레임워크를 제안합니다.

실험 결과, SFT 및 기존 MLLM 회귀 방법 대비 일관된 성능 향상을 보였으며, 특히 적은 샘플 환경에서 큰 개선을 달성했습니다.

##MLLM##강화학습##회귀##분포학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기