Pulse · AI 뉴스

TransVLM: 시각-언어 프레임워크 및 벤치마크를 통해 모든 샷 전환 감지

TransVLM · 2026-05-01

연구진은 샷 전환 감지(STD)라는 새로운 과제를 제시하며, 기존 샷 경계 감지(SBD)의 한계를 극복하고자 했습니다.

TransVLM은 시각-언어 모델(VLM) 프레임워크로, 광학 흐름을 활용하여 시간적 인지 능력을 향상시켰습니다.

TransVLM은 기존 방식보다 뛰어난 성능을 보이며, HeyGen Research 및 Avatar-V 모델에 적용되었습니다.

##비디오분석##시각언어모델##전환감지##TransVLM##HeyGen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기