이미지 캡셔닝은 컴퓨터 비전에서 가장 기본적인 작업 중 하나이며, 최근에는 다중 모드 대형 언어 모델(MLLM) 시대에 주목받고 있습니다. 기존 캡셔닝-RL 방법과 평가 지표는 캡션 품질의 좁은 측면을 강조하여 핵심 차원 간의 균형을 맞추기 어렵습니다. BalCapRL은 이러한 문제를 해결하기 위해 개발되었습니다.
BalCapRL은 유틸리티, 정확성, 간결성이라는 세 가지 핵심 차원을 고려하여 캡션 품질을 평가하고, 각 차원에 대한 균형 잡힌 보상을 제공합니다. 이를 통해 MLLM이 더 나은 캡션을 생성하도록 유도합니다.
연구진은 BalCapRL을 통해 생성된 캡션이 기존 방법보다 더 유용하고 정확하며 간결하다는 것을 실험적으로 입증했으며, 이는 MLLM 기반 이미지 캡셔닝 연구에 새로운 방향을 제시합니다.