TokenPilot은 LLM 에이전트의 장기 세션에서 컨텍스트 누적으로 인한 추론 비용 증가 문제를 해결하기 위한 프레임워크입니다.
Ingestion-Aware Compaction은 프롬프트 접두사를 안정화하고, Lifecycle-Aware Eviction은 작업 관련성이 만료된 컨텍스트 세그먼트를 삭제합니다.
PinchBench와 Claw-Eval 실험 결과, TokenPilot은 비용을 최대 87% 절감하면서도 기존 시스템과 경쟁력 있는 성능을 유지했습니다.