연구진은 에이전트의 도구 사용을 최적화하는 TACO(Tool-Augmented Credit Optimization)를 개발했어요. TACO는 코드 도구 에이전트를 위한 GRPO 변형으로, 두 개의 결합된 이점 채널을 사용해요.
DAPR(Differential Answer-Probe Reward)은 모델의 예측을 통해 각 도구 호출의 기여도를 평가하며, 유용한 호출에는 긍정적 신용, 오해의 소지가 있는 호출에는 부정적 신용을 부여해요.
OGAR(Outcome-Gated Advantage Routing)은 도구 호출 결과에 따라 최종 답변의 이점을 책임 있는 부분에만 전달하여 불필요한 도구 호출을 억제해요.
실험 결과, TACO는 다양한 벤치마크에서 정확도 향상을 보였고, 도구를 필요할 때만 호출하는 학습 능력을 보여줬어요.