연구진은 스트리밍 RAG(Retrieval-Augmented Generation)의 효율성을 분석했어요. 스트리밍 RAG는 사용자의 입력이 완료되기 전에 도구 쿼리를 병렬로 실행하여 지연 시간을 줄이는 기술이에요.
CRAG 벤치마크를 통해 도구 의도 안정화 현상을 측정했는데, 이는 입력 스트림에서 추론 쿼리의 검색 결과가 수렴하는 지점을 의미해요.
실험 결과, 현실적인 환경(도구 지연 600ms, 입력 속도 3w/s)에서 73.9%의 쿼리가 지연 시간을 숨길 수 있는 잠재력을 보여줬어요.
질문 유형에 따라 도구 의도 안정화가 조기에 발생하는지 늦게 발생하는지 예측할 수 있으며, 이는 학습된 추론 트리거의 비용 효율성을 판단하는 데 도움이 돼요.