LLM이 영어 중심적 편향을 줄이면서, 놀랍게도 비영어 답변이 추론 과제에서 영어 답변보다 더 높은 성능을 보이는 경향이 나타났어요.
연구팀은 언어가 모델의 내부 추론 경로를 구조적으로 조절하는 잠재 변수 역할을 하며, 다국어 기능이 모델의 잠재 추론 공간을 넓힌다고 제안했어요.
polyGRPO라는 새로운 RL 프레임워크를 통해 18.1K개의 다국어 수학 문제로 학습했을 때, Qwen2.5-7B-Instruct 모델의 추론 정확도를 6.72% 향상시켰고, 영어 상식 추론 과제에서도 기존 모델을 능가하는 성과를 보여줬어요.