연구진은 실제 환경에서 발생하는 도구 사용 에이전트의 오류를 sim-to-real POMDP 관점에서 분석하고, RobustBench-TC 벤치마크를 통해 22가지의 오류 유형을 제시했습니다.
모델 규모가 크다고 해서 오류에 강해지는 것은 아니며, 특히 보상 관련 및 전환 관련 오류가 정확도를 크게 떨어뜨리는 것으로 나타났습니다.
ToolRL-DR 레시피를 통해 도메인 랜덤화 RL을 적용하여 오류에 대한 강건성을 높였으며, 3B 모델로 14B 모델 수준의 성능을 달성하고 o4-mini 와의 격차를 좁혔습니다.