연구진은 LLM 에이전트의 경험 저장 및 재사용에 사용되는 검색 버퍼의 캐시 관리 정책 문제를 온라인 의미 캐시 대체 문제로 공식화했어요. 기존 LRU, LFU와 같은 휴리스틱 방식이 의미 기반 작업에서 FIFO 방식보다 성능이 떨어지는 것을 확인했어요. SOLAR라는 학습 증강 프레임워크를 제안하여 수정 시점을 후회 누적에서, 콘텐츠 선택을 베이즈 온라인 학습에서 결정하도록 했어요.
SOLAR은 캐시 크기 및 수평에 관계없이 3 이하의 일관된 경쟁 비율을 달성하며, 최대 $O( ext{KT} ext{log T})$의 추방 후회를 달성했어요. 실험 결과, 제한된 캐시 크기에서 FIFO 방식보다 5~75% 성능이 향상되었으며, 작업 세트 경계에서 명확한 상이점 전환이 관찰되었어요.
5000개 항목 풀을 사용한 합성 실험에서 풀 크기가 커짐에 따라 검색 품질이 개선되다가 감소하는 U자형 관계가 확인되었으며, 이는 용량 제한이 저장 제한이 아닌 검색 노이즈 현상임을 시사해요.