사용자 ART-ficial-Ignorance가 LTX-2.3과 fal의 오디오 반응 LoRA를 결합한 실험 결과를 공유했어요. 이전 실험에서 지적된 환각 현상을 줄이기 위해 시각적 방향을 개선했어요.
Scenify 도구를 통해 생성된 프롬프트를 Wan2GP로 전달해 LTX 2.3과 오디오 반응 LoRA로 렌더링했으며, 각 장면별 오디오를 모델에 직접 입력해 음악과 시각적 요소의 연관성을 높였어요.
RTX 4070에서 렌더링하는 데 21시간이 소요되었으며, 총 작업 시간은 약 24시간이었어요. 시각적 방향 개선이 모델의 성능을 향상시킨 것은 아니지만, 환각 현상을 줄이는 데 기여했어요.