최신 텍스트-이미지 모델은 복잡한 프롬프트에 강하지만, 설명적인 단락을 처리할 때는 핵심 세부 정보를 놓치는 경우가 많습니다.
연구진은 PRISM(Prompt Refraction for Intricate Scene Modeling)이라는 새로운 접근 방식을 제안하여, 기존 T2I 모델이 장문 시퀀스 입력을 처리할 수 있도록 합니다.
PRISM은 가벼운 모듈을 사용하여 장문 프롬프트에서 구성 요소 표현을 추출하고, 에너지 기반 결합을 통해 독립적인 노이즈 예측 결과를 통합합니다.