연구진은 오디오·비디오 합 생성 시 발생하는 다중 목표 불일치, 모달 간 기울기 불균형, 균일한 보상 할당 문제를 해결하기 위해 OmniNFT 프레임워크를 제안했습니다.
OmniNFT는 모달별 보상 라우팅, 계층별 기울기 수술, 영역별 손실 재가중이라는 세 가지 핵심 혁신을 통해 오디오·비디오 합 생성 성능을 향상시킵니다.
JavisBench 및 VBench에서 LTX-2 백본을 사용한 실험 결과, OmniNFT는 오디오 및 비디오의 시각적 품질, 모달 간 정렬, 오디오·비디오 동기화에서 전반적인 개선을 달성했습니다.