오픈 소스 RL 엔진에서 프롬프트와 응답을 반복 처리하는 방식이 비효율적일 때가 있습니다. 특히 긴 프롬프트와 짧은 응답 작업에서 불필요한 컴퓨팅 자원이 낭비될 수 있습니다.
프롬프트 캐싱 기법은 프롬프트를 한 번만 계산하고 이후 모든 응답을 계산하여 이 문제를 해결합니다. 이는 추론 prefix 캐싱과 유사하지만, 학습 과정에서 기울기를 전달해야 하므로 구현에 어려움이 있었습니다.
Qwen3.5-4B 모델을 사용한 실험 결과, 16K 프롬프트와 64 응답 시 최대 7.5배의 속도 향상을 달성했습니다.