본 논문은 Chain-of-Thought (CoT) 추론 과정의 엔트로피 역학을 분석하여 불확실성 탐색 구간과 신뢰 구간으로 나뉘는 2단계 구조를 밝혀냈습니다.
신뢰 구간은 높은 신뢰성과 중복성을 가지며, 이를 활용하여 조기 종료 및 테스트 시간 스케일링과 같은 효율적인 추론 전략을 개발할 수 있습니다.
연구진은 누적합(CUSUM) 알고리즘을 활용한 훈련 불필요한 프레임워크를 개발하여 CoT 추론을 실시간으로 제어하고, 기존 방법 대비 정확도와 토큰 수 감소 측면에서 우수한 성능을 보였습니다.