본 논문은 언어 모델의 추론을 평가하는 연구를 위한 가이드라인을 제시하며, 최종 답변 정확도 외에 적응적이고 다단계 검색 과정을 통해 추론을 평가해야 한다고 주장합니다.
연구진은 추론을 평가하기 위해 중간 단계를 선택하고 입력에 따라 중단하는 검색과 유사한 절차를 공식화했으며, 이는 변동 깊이 계산을 실현하는 데 구조적 한계가 있다고 설명합니다.
연구진은 추론 과정을 평가하기 위해 중간 추론 기록의 충실성과 유효성을 평가 대상으로 삼는 프로세스 기반 평가로의 전환을 주장합니다.