연구진은 LLM의 추론 과정에서 도구 호출과 실행을 분리하는 새로운 프레임워크 IH-GRPO를 제안했어요. 기존 방식의 단점을 극복하고 추론의 일관성과 표현력을 높이는 데 목표를 둬요.
IH-GRPO는 계층적 제어 프레임워크와 서브로게이트 손실 함수를 활용해 명시적 계층적 정책과 유사한 성능을 내는 암시적 계층적 정책을 학습해요.
Qwen3-1.7B, Qwen3-4B, Qwen3-8B 모델을 대상으로 6개의 수학 추론 벤치마크에서 기존 최고 성능 모델 대비 1.87~2.53% 성능 향상을 달성했어요.