사용자가 여러 대화 턴에 걸쳐 중요한 정보를 공개하면 LLM 정확도가 최대 65%까지 떨어집니다. 연구진은 모델을 훈련하여 점점 커지는 기록을 참조하는 대신, 소형의 순환 메모리를 유지하면 이 '대화 손실'을 크게 완화할 수 있다고 밝혔습니다. 샤딩 파이프라인을 통해 단일 턴 QA 데이터 세트를 다중 턴으로 분할하여 수 시간의 수동 주석 없이도 훈련을 확장 가능하게 만들었습니다.