연구진은 복잡한 문제를 해결하기 위해 외부 도구를 활용하는 에이전트 추론 과정에서 '사고-행동 간극' 문제를 발견했어요. 이 간극은 도구 사용 시 학습 신호를 약화시켜 성능 저하를 야기했어요. AXPO(Agent eXplorative Policy Optimization)는 잘못된 도구 사용 시 사고 전 과정을 수정하고 재샘플링하여 학습 효율을 높이는 방법이에요.
AXPO는 Qwen3-VL-Thinking 모델을 기반으로 9개의 다중 모드 벤치마크에서 SFT+GRPO 대비 평균 1.8%의 Pass@1 및 Pass@4 성능 향상을 보여줬어요. 특히 8B 모델은 32B 모델을 능가하는 성능을 보여줬어요.
AXPO는 기존 방식 대비 적은 파라미터로 더 높은 성능을 달성하여, 에이전트 추론 분야의 효율성을 높이는 데 기여할 것으로 기대돼요.