Pulse · AI 뉴스

도구 연동 추론 성능 향상을 위한 도구 호출-실행 분리: IH-GRPO

Qwen · 2026-05-18

연구진은 LLM의 추론 과정에서 도구 호출과 실행을 분리하는 새로운 프레임워크 IH-GRPO를 제안했어요. 기존 방식의 단점을 극복하고 추론의 일관성과 표현력을 높이는 데 목표를 둬요.

IH-GRPO는 계층적 제어 프레임워크와 서브로게이트 손실 함수를 활용해 명시적 계층적 정책과 유사한 성능을 내는 암시적 계층적 정책을 학습해요.

Qwen3-1.7B, Qwen3-4B, Qwen3-8B 모델을 대상으로 6개의 수학 추론 벤치마크에서 기존 최고 성능 모델 대비 1.87~2.53% 성능 향상을 달성했어요.

##LLM##추론##도구연동##계층적정책##IH-GRPO
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기