연구진은 LLM 기반 다중 턴 대화 시스템의 장기적인 맥락 의존성 문제를 해결하기 위해 Self-Recall Thinking (SRT) 프레임워크를 제안했어요.
SRT는 유용한 과거 대화 턴을 식별하고 이를 활용하여 응답을 생성하며, 모델이 추론 과정에서 선택적으로 맥락을 회상하고 추론할 수 있도록 돕는 방식이에요.
실험 결과, SRT는 F1 점수를 4.7% 향상시키고 엔드투엔드 지연 시간을 14.7% 단축하며 기존 방법보다 우수한 성능을 보였어요.