연구진은 텍스트-이미지 생성 모델의 '이해-생성 격차'를 공식화하고, LLM을 보편적 추론 엔진으로 활용하여 시각적 초안을 생성하고, 자체 비평을 통해 생성 과정을 안내하는 프레임워크 'UniReasoner'를 제안했습니다.
UniReasoner는 LLM이 생성한 시각적 초안을 평가하여 텍스트 기반 조건부 생성의 부족함을 보완하고, 누락, 환각, 관계 오류를 수정하는 데 필요한 구체적인 수정 신호를 제공합니다.
실험 결과, UniReasoner는 기존 방식과 동일한 디퓨전 백본을 사용하면서도 복합적인 정렬 및 의미적 충실도를 향상시켜 LLM 추론 능력을 활용하는 실용적인 방법을 입증했습니다.