연구진은 텍스트-이미지 생성 모델이 특정 객체에 대한 고정관념 때문에 텍스트 설명을 제대로 반영하지 못하는 문제점을 확인했어요.
이들은 정보 이론 분석을 통해 최종 텍스트 임베딩이 중간 텍스트 표현에 담긴 개념 정보를 잃어버리는 것을 발견하고, 이를 해결하기 위해 새로운 방법을 제안했어요.
제안된 방법은 중간 텍스트 표현을 활용하여 초기 디노이징 단계에서 조건 신호에 주입하여, 기존 시각적 고정관념을 극복하고 텍스트와 이미지의 일관성을 높여요.
새로운 벤치마크 OAO-AttackBench를 통해 성능을 평가한 결과, VQAScore가 최대 19.1% 향상되는 등 긍정적인 결과를 얻었어요.