OpenCode와 같은 에이전트 도구가 대화 기록을 최적화하면서 llama.cpp가 전체 컨텍스트를 재처리하여 응답이 느려지는 문제를 해결하기 위해 PR이 제안됐어요. pi 도구를 사용하거나 Qwen 3.6의 'preserve thinking' 기능을 활성화하여 llama.cpp가 변경된 부분만 재처리하도록 개선할 수 있어요. 이 PR을 통해 에이전트 코딩 시 응답성을 높여 사용자 경험을 개선할 수 있어요.