연구진이 MLLM 기반 멀티모달 LLM을 활용해 주체 중심 이미지 생성 성능을 향상시키는 새로운 접근법을 제시했어요. 텍스트와 참조 이미지를 함께 인코딩하고 VAE 기반 주체 조건부 설정을 추가하여 교차 모드 추론 능력을 향상시켰어요. 실험 결과, 기존 방식 대비 인간 선호도에서 우수한 성능을 보였으며, 주체 중심 이미지 생성에서 복사-붙여넣기 문제를 완화했어요.
새로운 Dual Layer Aggregation (DLA) 모듈은 MLLM의 다중 레벨 특징을 집계하여 최적의 조건부 설정을 가능하게 하고, 멀티 스테이지 디노이징 전략은 추론 과정에서 MLLM의 의미 정보와 VAE의 정밀한 주체 정보를 균형 있게 유지해요. 프로젝트 웹사이트는 GitHub에서 확인할 수 있어요.
기존 방식은 텍스트와 참조 이미지를 분리하여 인코딩하고, 교차 모드 추론 능력이 제한적이며 복사-붙여넣기 아티팩트가 발생한다는 한계가 있었어요. 이번 연구는 이러한 문제를 해결하고, 주체 중심 이미지 생성의 품질을 높이는 데 기여할 것으로 기대돼요.