사용자가 이미지 캡셔닝에 joycaption을 사용하며 영상 캡셔닝 방법을 찾고 있어요. LTX 학습을 시작하면서 오디오를 포착할 수 있는 영상 캡션에 대한 필요성을 느끼고 있어요. Qwen 모델이 영상 캡셔닝에 적합할 수 있다는 의견이 있지만, 정확한 정보는 아직 확인되지 않았어요.