연구진이 대규모 비디오 데이터에서 관련 영상 검색 및 정밀한 작업 수행을 위한 VideoSearch-R1 프레임워크를 제안했어요.
VideoSearch-R1은 초기 검색 실패 시에도 검색어를 지속적으로 개선하는 Soft Query Refinement (SQR) 기술을 도입했어요.
SQR은 텍스트 공간 대신 연속적인 잠재 공간에서 검색어 토큰을 정제하여 더욱 효율적이고 정밀한 조정을 가능하게 해요.
연구 결과, VideoSearch-R1은 세 가지 데이터셋에서 최고 성능을 달성하며, 코드와 모델 체크포인트는 공개됐어요.