연구진은 LLM의 도구 활용 능력을 안정화하고 효율적인 학습을 돕는 TAO-RL 프레임워크를 제안했어요. TAO-RL은 도구 실패 시나리오와 모든 결과가 동일한 트레이저리 데이터를 필터링하여 고품질 학습 데이터 분포를 구축해요. 또한 도구 사용 후 결정 지점에서 다양한 추론 경로를 탐색하도록 유도하는 엔트로피 기반 보상을 도입하여 성능을 향상시켰어요.