연구팀은 텍스트-이미지 생성 시스템에서 LLM의 활용 범위를 넓히기 위해 RepFusion을 개발했어요. RepFusion은 MLLM을 활용해 노이즈가 있는 표현을 인코딩하고, 이를 디퓨전 트랜스포머의 조건 신호로 사용해요.
기존 방식과 비교했을 때 RepFusion은 유사한 연산 예산 내에서 더 뛰어난 성능을 보여줬으며, 이는 MLLM이 시각 표현 노이즈 제거에 강력한 사전 지식을 제공한다는 것을 입증해요.
연구 결과는 현대 텍스트-이미지 생성 시스템에서 테스트 시간 연산 자원을 반복적인 MLLM 조건 설정에 효율적으로 사용하는 방법을 제시해요.