연구진은 불필요한 토큰 사용과 지연을 줄이기 위해 추론 모델의 조기 종료를 위한 PUMA 프레임워크를 제안했어요. PUMA는 기존 방법과 달리 추론 단계의 의미 중복성을 감지하여 안전한 조기 종료 시점을 판단해요. 5개의 LRM과 5개의 추론 벤치마크에서 PUMA는 평균 26.2%의 토큰 감소를 달성하며 정확도와 유지된 CoT 품질을 보존했어요.