연구진은 영어 추론 능력이 뛰어난 대규모 추론 모델(LRM)이 다른 언어로 추론할 때 성능이 저하되는 문제를 해결하기 위해 PCS(Progressive Code-Switching) 프레임워크를 제안했어요.
PCS는 더 강력한 모델을 사용한 증류나 외부 판단 모델의 온라인 감독 없이, 경량 번역만으로 효율적인 언어 전달을 가능하게 해요.
점진적으로 대상 언어 비율을 높이는 강화 학습을 통해 모델이 대상 언어로 완전히 추론하도록 훈련하며, 다양한 언어 벤치마크에서 영어 추론과 대상 언어 추론 간의 성능 격차를 크게 줄였어요.