연구진이 RAG 파이프라인에서 재작성된 문맥에 답변이 포함되어 있는지 여부가 성능에 미치는 영향을 조사했어요. 답변이 포함된 문맥은 독자가 답변을 찾는 데 도움이 되는 반면, 답변이 없는 문맥은 성능을 저하시키는 것으로 나타났어요. 연구진은 이 결과를 검증하기 위해 재작성된 문맥을 수정하는 실험을 진행하고, 그 결과를 공개했어요.
연구진은 Qwen2.5-7B, Qwen3.5-35B, GLM-4.7 등 다양한 독자 모델과 HotpotQA, 2WikiMultihopQA 데이터셋을 사용했어요. 실험 결과, 답변이 없는 문맥에 답변을 추가하면 F1 점수가 0.7~9.7점까지 향상되는 것을 확인했어요.
기존의 LLM 검증 방법이 취약하다는 점도 발견했는데, 이는 재작성 성능 향상을 과대평가할 수 있다는 것을 의미해요. 연구진은 실험 도구와 검증 패널을 공개하여 다른 연구자들이 재작성 성능 주장을 검증할 수 있도록 지원할 예정이에요.