연구진은 LLM 에이전트의 장기적인 목표 달성을 위해 중간 단계의 정보 수집 과정을 학습시키는 새로운 방법인 SIOP(Self-Induced Outcome Potential)을 제안했습니다.
SIOP는 최종 답변의 의미적 클러스터를 잠재적인 미래 결과 상태로 간주하여, 신뢰도 기반의 턴 레벨 크레딧 할당을 가능하게 합니다.
SIOP는 7개의 검색 증강 에이전트 추론 벤치마크에서 기존 방법보다 성능이 향상되었으며, 금표시된 결과 기반의 기준선에 근접했습니다.