Pulse · AI 뉴스

RoadTones: 영상 톤 제어 가능한 텍스트 생성 모델

RoadTones · 2026-05-21

연구진은 도로 영상에 대한 톤 제어가 가능한 텍스트 생성 모델과 평가 방법을 제시했어요. RoadTones-51K 데이터셋은 다양한 톤으로 주석이 달린 다중 톤 캡션을 포함하고 있어요. RoadTones-Eval 평가 스위트는 사실 일관성과 톤 준수를 동시에 측정해요.

RoadTones-VL-CoT 모델은 톤에 따라 Chain-of-Thought 중간 초안을 생성하여 해석 가능성을 높여요. 사용자 연구 결과, 캡션 품질, 톤 제어, 사실 일관성이 검증되었어요.

본 연구는 상황에 맞는 톤 제어 가능한 영상 캡셔닝의 기반을 마련했어요.

##영상캡셔닝##톤제어##RoadTones
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기