Pulse · AI 뉴스

DeferMem: 강화 학습 기반 쿼리 시간 증거 증류를 통한 장기 기억 QA

DeferMem · 2026-05-21

연구진은 LLM 에이전트의 장기 기억 질문 답변 성능 향상을 위해 DeferMem 프레임워크를 개발했어요.

DeferMem은 쿼리 시간에 광범위한 후보를 검색하고, DistillPO 강화 학습 알고리즘을 활용해 쿼리에 최적화된 증거를 추출하는 방식이에요.

LoCoMo 및 LongMemEval-S 벤치마크에서 기존 방식보다 QA 정확도와 메모리 시스템 효율성을 모두 개선하며 최고 성능을 달성했어요.

##LLM##장기기억##강화학습##QA##메모리시스템

매일 핵심 AI 소식을 한국어로, 빠르게