Pulse · AI 뉴스

DT2IT-MRM: 편향 해제된 선호도 구축 및 반복 훈련을 통한 다중 모드 보상 모델링

arXiv cs.AI · 2026-04-22

다중 모드 보상 모델(MRM)은 다중 모드 대규모 언어 모델(MLLM)을 인간의 선호도에 맞추는 데 중요한 역할을 해요.

DT2IT-MRM은 편향 해제된 선호도 구축 파이프라인, 텍스트-이미지(T2I) 선호도 데이터의 새로운 재구성, 기존 다중 모드 선호도 데이터 세트를 큐레이션하는 반복 훈련 프레임워크를 통합했어요.

실험 결과, DT2IT-MRM은 VL-RewardBench, Multimodal RewardBench, MM-RLHF-RewardBench의 세 가지 주요 벤치마크에서 새로운 최고 성능을 달성했어요.

##모델출시##다중모드##보상모델링

매일 핵심 AI 소식을 한국어로, 빠르게