연구진은 대규모 추론 모델(LRM)의 추론 비용을 줄이기 위해 NVFP4 추론을 제안했어요. NVFP4 양자화가 토큰 수준의 불확실성을 증가시키고, 잘못된 샘플링을 유발한다는 것을 발견했어요. ReSET은 단계별 불확실성을 추정하여 토큰 수준 및 단계 수준 엔트로피 신호를 기반으로 디코딩 온도를 조정하는 방법이에요. ReSET은 NVFP4 추론 정확도를 향상시키고, CUDA 코어 소형-M 커널을 통해 지연에 민감한 디코딩 속도를 개선했어요.