연구진은 LLM의 자가 플레이를 통해 평가 룰과 입력-출력 쌍을 생성하는 POP 프레임워크를 제안했어요. POP은 기존 방식보다 현실적인 개방형 작업에 적용 가능하며, 훈련 모델의 성능을 향상시키는 데 기여했어요. Qwen-2.5-7B 모델을 대상으로 실험한 결과, POP은 사전 훈련 및 지시 튜닝 모델 모두의 성능을 개선했어요.