LatentRAG는 복잡한 질문에 대한 RAG의 효율성을 높이기 위해 잠재 공간으로 추론과 검색을 이동시키는 새로운 프레임워크입니다. 기존 방식과 달리 LatentRAG는 자연어 생각을 생성하는 대신 잠재 토큰을 직접 생성하여 추론 및 검색 지연 시간을 약 90% 줄입니다. 7개의 벤치마크 데이터 세트에서 실험한 결과, LatentRAG는 기존 에이전트 RAG 방법과 비슷한 성능을 보이면서도 지연 시간을 크게 줄였습니다.