연구진은 샷 전환 감지(STD)라는 새로운 과제를 제시하며, 기존 샷 경계 감지(SBD)의 한계를 극복하고자 했습니다. TransVLM은 시각-언어 모델(VLM) 프레임워크로, 광학 흐름을 활용하여 시간적 인지 능력을 향상시켰습니다. TransVLM은 기존 방식보다 뛰어난 성능을 보이며, HeyGen Research 및 Avatar-V 모델에 적용되었습니다.