연구진은 Ground-Truth 단위 테스트(GT UT)의 한계를 극복하기 위해 CoSPlay 프레임워크를 개발했어요.
CoSPlay는 코드와 단위 테스트를 공동으로 개선하는 방식으로, 자체 생성된 단위 테스트를 활용하여 코드 후보를 개선하고 선택해요.
Qwen2-5-7B-Instruct 모델에서 BoN(Begin of Next) 성능을 22.1%에서 33.2%로, 단위 테스트 정확도를 14.6%에서 78.3%로 향상시켰어요.
CoSPlay는 GT 데이터 없이도 경쟁력 있는 코드 생성을 위한 확장 가능한 추론 전략을 제시하며, CURE-7B 모델 성능 향상에도 기여했어요.