연구진은 강화 학습 에이전트의 신용 할당 불일치 문제를 해결하기 위해 StepOPSD라는 새로운 프레임워크를 제시했어요. StepOPSD는 에이전트의 단계를 신용 재분배 단위로 활용하여, 원활한 상호 작용 단위를 유지하면서도 토큰 수준의 더 촘촘한 감독 신호를 제공해요.
ALFWorld 및 Search-QA 환경에서 Qwen3-1.7B 및 Qwen2.5-3B-Instruct 모델을 사용하여 실험한 결과, StepOPSD는 지역적 원인 오류에 민감한 부분 집합에서 최고 또는 두 번째로 좋은 결과를 달성했어요.
연구 결과는 α_clip과 λ_mix라는 두 가지 주요 파라미터 간의 관계를 보여주며, 이는 안정적인 지역 신뢰 영역과 최적의 전역 혼합 강도를 결정하는 데 중요한 역할을 해요.