연구진은 도로 영상에 대한 톤 제어가 가능한 텍스트 생성 모델과 평가 방법을 제시했어요. RoadTones-51K 데이터셋은 다양한 톤으로 주석이 달린 다중 톤 캡션을 포함하고 있어요. RoadTones-Eval 평가 스위트는 사실 일관성과 톤 준수를 동시에 측정해요.
RoadTones-VL-CoT 모델은 톤에 따라 Chain-of-Thought 중간 초안을 생성하여 해석 가능성을 높여요. 사용자 연구 결과, 캡션 품질, 톤 제어, 사실 일관성이 검증되었어요.
본 연구는 상황에 맞는 톤 제어 가능한 영상 캡셔닝의 기반을 마련했어요.