사용자가 비디오 프레임 분류를 위해 CLIP, SigLIP 등 기존 이미지 인코더 대신 자체 인코더 구축을 고려 중이에요. 15프레임(30초) 비디오 세그먼트의 임베딩을 생성하여 작은 Transformer 모델에 입력하는 방식인데, GPU 환경에서 잘 작동하지만 CPU 환경에서의 속도와 배포가 관건이에요. 자체 인코더를 사용하면 임베딩 생성 속도와 Transformer 모델 정확도를 향상시킬 수 있을지 궁금해해요.
기존 CLIP-S0 인코더는 초당 10개 이미지 처리 가능하지만, 사용자 맞춤 인코더는 몇 백만 개의 파라미터로 구성하여 속도 향상을 목표로 하고 있어요. 자체 데이터셋(수백만 이미지)으로 학습하여 4~5개의 레이블을 분류할 계획이에요. CLIP 대비 성능 향상 가능성이 있는지 질문했어요.
사용자는 GPU 환경에서 잘 작동하는 파이프라인을 CPU 환경에서도 효율적으로 운영하기 위해 이미지 인코더 구축을 고려하고 있으며, 속도와 정확도 개선을 기대하고 있습니다.