Pulse · AI 뉴스

SARA: 비디오 디퓨전 모델의 의미적 적응 관계 정렬

SARA · 2026-05-08

SARA는 비디오 디퓨전 모델(VDM)의 텍스트 추종 성능을 향상시키는 새로운 방법입니다. 이 방법은 프롬프트와 관련된 토큰 쌍에 따라 감독을 할당하는 텍스트 기반 중요도 맵을 활용합니다.

SARA는 토큰 관계 증류(TRD)를 유지하면서, Stage 1 정렬기를 사용하여 개체별 SAM 3.1 마스크 감독과 InfoNCE 정규화로 학습합니다.

공개 VBench 벤치마크와 사용자 연구에서 SARA는 기존 방법(SFT, VideoREPA, MoAlign)보다 텍스트 정렬 및 모션 품질을 개선했습니다.

##비디오디퓨전##SARA##모델개선
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기