연구자가 합성 의료 데이터베이스를 활용해 RAG 벤치마크를 구축하고, 쿼리 재작성, BGE 재순위화, Small-to-Big 검색 등 다양한 기법을 비교했어요. 가장 큰 성능 향상은 모델 튜닝이 아닌 문서 구조 개선에서 비롯됐다고 밝혔어요.
Small-to-Big 검색을 통해 방문 기록 단위의 작은 조각을 검색하고, 관련 전체 환자 기록으로 확장하는 방식으로 정확한 매칭과 풍부한 컨텍스트를 확보했어요. 집계 질문에 대한 답변 정확도를 높이기 위해 사전 계산된 집계 정보를 담은 롤업 문서(rollup documents)를 추가하기도 했어요.
연구 결과, RAG 품질은 종종 답변에 필요한 정보가 담긴 데이터 표현 방식에 달려있으며, 필요한 정보가 없다면 재순위화만으로는 해결할 수 없다고 강조했어요. 벤치마크 코드와 결과는 GitHub와 Ragnosis에서 확인할 수 있어요.