Pulse · AI 뉴스

Extrapolative Weight Averaging: 코드 RL에서 정확성-효율성 경계 발견

arXiv cs.LG · 2026-05-28

연구진은 코드 RL에서 fine-tuned 체크포인트 간 선형 보간이 경쟁 목표 사이의 파레토 프론트를 추적하는 것을 보여주었지만, 추가적인 RL 훈련 없이 추론 시 유용한 새로운 체크포인트까지 이러한 프론트를 확장할 수 있는지 확인하기 위해 extrapolative weight averaging을 연구했습니다.

연구 결과, nested unit-test coverage를 통해 학습된 코드 RL 모델은 정확성-효율성 프론티어를 형성하며, 보간은 이 프론티어를 회복하고, 외삽은 이를 확장합니다.

외삽적 가중치 평균을 사용한 앙상블은 LCB/hard에서 pass@250을 3.3% 향상시켜, 매칭 샘플 예산에서 가장 좋은 단일 체크포인트를 능가했습니다.

##코드RL##외삽##가중치평균##파레토프론트

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기