연구진은 거대 추론 모델(LRM)이 불필요한 토큰을 소모하고 지연을 증가시키는 과도한 추론 문제를 해결하기 위해 PUMA 프레임워크를 제안했어요.
PUMA는 기존 방법과 달리 추론 단계의 의미 중복성을 감지하여 안전한 조기 종료를 결정하며, 답변 정확도와 일관성 있는 추론 과정을 유지해요.
다섯 가지 LRM과 다섯 가지 추론 벤치마크에서 PUMA는 평균 26.2%의 토큰 감소를 달성했으며, 코드 생성, 시각-언어 추론 등 다양한 분야에서 효과를 입증했어요.