연구진은 대규모 인간 감독 없이 자체적으로 성능을 개선하는 시각-언어 모델(VLM) 학습 방법인 RISE를 제안했어요.
RISE는 질문 생성자와 해결자 간의 피드백 루프를 단축하는 미세 조정된 역할 전환, 질문 품질을 개선하는 품질 감독자, 다양한 기술 범위를 유지하는 기술 기반 동적 균형을 통해 VLM의 효율성과 신뢰성을 높여요.
실험 결과, RISE는 두 가지 VLM 백본에서 7가지 벤치마크를 통해 기본 모델을 지속적으로 개선하는 광범위한 효과를 보여줬어요. 코드는 GitHub에서 공개됐어요.