다중 모드 보상 모델(MRM)은 다중 모드 대규모 언어 모델(MLLM)을 인간의 선호도에 맞추는 데 중요한 역할을 해요.
DT2IT-MRM은 편향 해제된 선호도 구축 파이프라인, 텍스트-이미지(T2I) 선호도 데이터의 새로운 재구성, 기존 다중 모드 선호도 데이터 세트를 큐레이션하는 반복 훈련 프레임워크를 통합했어요.
실험 결과, DT2IT-MRM은 VL-RewardBench, Multimodal RewardBench, MM-RLHF-RewardBench의 세 가지 주요 벤치마크에서 새로운 최고 성능을 달성했어요.