Pulse · AI 뉴스

BalCapRL: RL 기반 MLLM 이미지 캡셔닝을 위한 균형 잡힌 프레임워크

BalCapRL · 2026-05-08

연구진은 이미지 캡셔닝의 품질 균형을 맞추기 위해 강화 학습(RL) 기반 프레임워크 BalCapRL을 제안했습니다.

BalCapRL은 유용성, 참조 커버리지, 언어 품질을 동시에 최적화하며, GDPO 스타일의 보상 분리 정규화를 적용하여 성능을 향상시켰습니다.

LLaVA-1.5-7B 및 Qwen2.5-VL 3B/7B 모델에서 DCScore, CaptionQA, CapArena 점수를 각각 최대 +13.6, +9.0, +29.0 만큼 향상시켰습니다.

##이미지캡셔닝##강화학습##MLLM

매일 핵심 AI 소식을 한국어로, 빠르게