연구진은 이미지 캡셔닝의 품질 균형을 맞추기 위해 강화 학습(RL) 기반 프레임워크 BalCapRL을 제안했습니다.
BalCapRL은 유용성, 참조 커버리지, 언어 품질을 동시에 최적화하며, GDPO 스타일의 보상 분리 정규화를 적용하여 성능을 향상시켰습니다.
LLaVA-1.5-7B 및 Qwen2.5-VL 3B/7B 모델에서 DCScore, CaptionQA, CapArena 점수를 각각 최대 +13.6, +9.0, +29.0 만큼 향상시켰습니다.