Pulse · AI 뉴스

ReSET: 단계별 온도 조절을 통한 정확한 NVFP4 추론

ReSET · 2026-06-11

연구진은 대규모 추론 모델(LRM)의 추론 비용을 줄이기 위해 NVFP4 추론을 제안했어요.

NVFP4 양자화가 토큰 수준의 불확실성을 증가시키고, 잘못된 샘플링을 유발한다는 것을 발견했어요.

ReSET은 단계별 불확실성을 추정하여 토큰 수준 및 단계 수준 엔트로피 신호를 기반으로 디코딩 온도를 조정하는 방법이에요.

ReSET은 NVFP4 추론 정확도를 향상시키고, CUDA 코어 소형-M 커널을 통해 지연에 민감한 디코딩 속도를 개선했어요.

##추론##양자화##NVFP4##ReSET##CUDA

매일 핵심 AI 소식을 한국어로, 빠르게