연구진은 툴 연동 Text-to-SQL 모델의 신용 할당 문제를 해결하기 위해 FineStep 프레임워크를 제안했어요. FineStep은 단계별 신용 할당 메커니즘을 통해 각 추론 단계의 가치를 정확하게 측정하고, 비효율적인 단계는 줄여요.
독립적인 과정 보상 설계와 단계별 이점 기반 정책 최적화 방법을 사용해 모델의 효율성과 일반화 능력을 향상시켰어요.
BIRD 벤치마크 실험 결과, FineStep은 GRPO보다 평균 3.25%의 EX 향상을 달성하며 최첨단 성능을 보여줬어요.