Pulse · AI 뉴스

CoSPlay: 자체 생성 코드 및 단위 테스트를 활용한 테스트 시간 협력적 자기 플레이

Qwen · 2026-05-22

연구진은 Ground-Truth 단위 테스트(GT UT)의 한계를 극복하기 위해 CoSPlay 프레임워크를 개발했어요. CoSPlay는 코드와 단위 테스트를 동시에 개선하는 협력적 자기 플레이 방식을 사용해요.

Qwen2.5-7B-Instruct 모델에 적용한 결과, BoN(Begin of Next) 성능이 22.1%에서 33.2%로 향상되고 단위 테스트 정확도가 14.6%에서 78.3%로 증가했어요.

CURE-7B 모델에 적용했을 때도 BoN을 5.7% 추가 향상시켰으며, 다양한 백본에서 GT-free TTS 기준선보다 뛰어난 성능을 보였어요.

CoSPlay는 GT 데이터 없이도 경쟁력 있는 코드 생성을 위한 확장 가능한 추론 전략을 제시하며, 토큰 예산 증가에 따라 지속적인 성능 향상을 보여줬어요.

##코드생성##자기플레이##단위테스트##CoSPlay##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기