연구진은 Qwen3 추론 모델의 2비트 양자화가 추론 과정 불안정으로 인해 토큰 수가 증가하여 전체 속도 향상을 달성하지 못하는 실패 모드를 분석했어요.
반복 루프, 예산 소진, 늦은 결정, 미완성 추론 세그먼트와 같은 과정 실패를 해결하기 위해 FP16 계획 및 루프 복구 기술을 도입했어요.
FP16 계획과 루프 복구를 결합하여 Qwen3-32B 모델의 MATH-500 정확도를 65.0%에서 87.2%로 향상시켰으며, 2비트 추론의 실용성을 입증했어요.