연구진이 텍스트-이미지 생성 모델의 의미적 불일치 문제를 해결하기 위해 STEDiff라는 새로운 방법을 제안했어요. STEDiff는 학습 과정 없이 텍스트 임베딩 공간에서 의미 표현을 직접 강화하는 방식으로 작동해요.
STEDiff는 [EOT] 토큰을 활용해 하위 문장의 관련 의미를 강화하고, 원래 프롬프트의 토큰을 대체하는 방식으로 작동하며, 공간적 제약을 강제하는 새로운 의미 강화 손실을 도입했어요.
T2I-CompBench 평가 결과, STEDiff는 복잡한 시나리오에서 의미 일관성과 생성 무결성을 크게 향상시키는 것으로 나타났어요.