연구진은 Ground-Truth 단위 테스트(GT UT)의 한계를 극복하기 위해 CoSPlay 프레임워크를 개발했어요. CoSPlay는 코드와 단위 테스트를 동시에 개선하는 협력적 자기 플레이 방식을 사용해요.
Qwen2.5-7B-Instruct 모델에 적용한 결과, BoN(Begin of Next) 성능이 22.1%에서 33.2%로 향상되고 단위 테스트 정확도가 14.6%에서 78.3%로 증가했어요.
CURE-7B 모델에 적용했을 때도 BoN을 5.7% 추가 향상시켰으며, 다양한 백본에서 GT-free TTS 기준선보다 뛰어난 성능을 보였어요.
CoSPlay는 GT 데이터 없이도 경쟁력 있는 코드 생성을 위한 확장 가능한 추론 전략을 제시하며, 토큰 예산 증가에 따라 지속적인 성능 향상을 보여줬어요.