연구진은 LLM 검색 에이전트의 학습 효율을 높이기 위해 신뢰도 감쇠 우선 피드백(CAPF)이라는 새로운 훈련 기법을 제안했어요. CAPF는 에이전트의 오류를 수정하고 긍정적인 보상 경로를 생성하여 어려운 문제 해결 능력을 향상시키는 데 도움을 줘요. 실험 결과, CAPF를 적용한 Qwen3-4B 모델의 정확도 점수가 7개의 오픈 도메인 QA 벤치마크에서 48.5%로 향상됐어요.