연구진은 소셜 미디어 영상의 시각적 주제를 자동 감지하는 기술을 발전시켰어요. VideoChatGPT, PandaGPT, VideoLLava 등 주요 VLMs를 평가하고, 클러스터링을 통해 영상 내 숨겨진 패턴을 분석했어요. DINOv2는 스타일 차이와 추상적인 카테고리에 집중하고, ConvNeXt V2는 더 세밀한 방식으로 클러스터링하는 것을 발견했어요.