연구진은 강화 학습을 이용한 장기 과제 LLM 에이전트 훈련의 어려움을 해결하기 위해 HINT-SD라는 표적 백투백 증류 프레임워크를 제안했어요. HINT-SD는 전체 경로를 활용해 실패와 관련된 행동을 선택하고, 표적 행동 구간에만 피드백 기반 증류를 적용하는 방식이에요. BFCL v3와 AppWorld 실험 결과, 기존의 밀도 높은 피드백 방식보다 최대 18.8% 성능을 향상시키고 훈련 시간은 2.26배 단축했어요.