Pulse · AI 뉴스

시각적 표현 기반 비디오-LLM 추론을 통한 훈련 없는 복합 비디오 검색

DINOv3 · 2026-06-01

연구진이 CVPR 2026 Reason-Aware Composed Video Retrieval Challenge를 위해 시각적 표현 기반 비디오-LLM 추론 프레임워크를 개발했어요. 이 프레임워크는 DINOv3 모델로 시각적으로 관련된 후보군을 선별하고, vision-language 모델로 수정 지시사항을 평가해요. 훈련 없이 테스트 세트에서 Recall@1 48.78%, Recall@5 51.48%를 달성했어요.

초기 후보군 선별에는 frozen DINOv3 모델을 사용하고, 최종 예측 정확도를 높이기 위해 추론 기반의 추가 개선 작업을 거쳐요.

이 프레임워크는 참고 비디오와 수정 지시사항에 따라 대상 비디오를 검색하는 복합 비디오 검색 작업을 해결하기 위해 개발되었어요.

##비디오검색##LLM##컴퓨터비전##DINOv3

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기