연구진은 LLM의 추론 기반 생성, 텍스트 표현, 컨텍스트 압축을 하나의 프레임워크로 통합하는 GRC (GRC: Unifying Reasoning-Driven Generation, Retrieval and Compression)를 제안했습니다.
GRC는 메타 잠재 토큰과 통합 튜닝 방식을 통해 세 가지 목표를 달성하며, 추론 기반 검색 증강 생성 (RAG) 배포 노력을 줄이고 데이터 활용도를 3배 향상시킵니다.
새로운 텍스트 임베딩 방식인 self-reason-latent embeds와 잠재 메모리 증강 생성 (latent memory-augmented generation) 파라다임을 제시하며, 하이브리드 페이징 어텐션으로 추론 속도를 높였습니다.