연구진은 레이블 없이 이미지만으로 통합 대규모 멀티모달 모델(LMM)의 이해 및 생성 능력을 자율적으로 향상시킬 수 있는 자체 진화 훈련 프레임워크를 제안했어요.
이 프레임워크는 질문 생성(Proposer), 답변 및 평가(Solver), 이미지 합성(Generator) 역할을 수행하는 세 가지 내부 모듈로 구성되며, 인간 어노테이션 없이 자체적으로 생성된 일관성 신호를 사용해요.
Solver Token Entropy(STE)를 도입하여 학습을 안정화하고, 이미지 생성 시에는 질문-답변 충실도 점수와 순환 일관성 캡셔닝을 결합한 다중 스케일 내부 평가 방식을 활용했어요.