연구진은 텍스트-비디오 확산 모델의 구성적 이해 부족 문제를 해결하기 위해 CVG를 제안했어요. CVG는 모델의 내부 신호를 활용하여 노이즈 제거 과정을 조작하는 추론 시간 가이드 방식입니다. 가벼운 구성 분류기를 훈련시켜 초기 노이즈 제거 단계에서 잠재적 경로를 원하는 구성에 맞게 조정합니다.
CVG는 모델 아키텍처를 수정하거나 생성기를 미세 조정하지 않고도 구성 생성의 충실도를 향상시킵니다. 실험 결과, 기존 생성기의 시각적 품질을 유지하면서 프롬프트 충실도가 향상된 것을 확인했어요.
연구는 기존 VLM 백본을 기반으로 하며, 분류기는 의미적으로 관련된 구성 레이블 간에 전송됩니다.