연구진은 시각-언어 모델의 추론 능력과 외부 도구 활용을 결합한 에이전트 추론의 불균형 문제를 해결하기 위해 AXPO(Agent eXplorative Policy Optimization)를 제안했어요. AXPO는 잘못된 도구 활용 시도를 수정하여 학습 신호를 개선하고, 생각 단계와 도구 활용 단계의 간극을 줄여요. Qwen3-VL-Thinking 모델을 활용한 실험에서 AXPO는 기존 방식 대비 성능을 향상시켰어요.