SAGE는 프롬프트 공간에서 확률적 탐색을 수행하는 프레임워크인 SPO를 소개합니다. 에러 정보 기반 랜덤 탐색, 유전 알고리즘, 에이전트 기반 탐색인 SAGE를 비교 분석했습니다. 벤치마크 테스트에서 특정 전략이 우세하지 않았으며, 효과는 환경 구조와 에러 유형 상호 작용에 따라 달라졌습니다.
SAGE를 정신 건강 챗봇에 적용하여 지속적인 최적화 파이프라인을 구축했습니다. 개별 A/B 테스트의 노이즈를 8번 반복하여 통계적으로 유의미한 차세대 유지율 향상을 달성했습니다.
질적 진단과 정량적 검증 결합이 개방형 작업 지향 대화에서 에이전트 최적화의 효과를 높이는 핵심이라고 주장합니다.