POCA는 시각 텍스트 생성 모델이 텍스트 정확도와 이미지 일관성 사이의 균형을 맞추는 데 어려움을 겪는 문제를 해결하기 위한 프레임워크예요. 패러토 최적 집합을 찾아 단순화된 스칼라화 방식을 피하고, 자동 난이도 평가를 통해 다중 보상 데이터셋의 학습 순서를 관리하는 적응형 커리큘럼 정렬 전략을 설계했어요. 실험 결과, POCA는 CLIP, HPS 점수, 문장 정확도 등 모든 지표에서 상당한 개선을 보여줬어요.