연구진은 LLM의 추론 능력을 확장하기 위한 테스트 시간 계산 확장이 중요함을 강조하며, 기존의 경직된 계획-시도(PbT) 정책의 비효율성을 지적했어요.
PaT(Planning-after-Trial)는 실패 검증 후에만 플래너를 호출하는 적응형 정책으로, 비용 효율적인 모델은 생성 시도를 처리하고 강력한 모델은 플래닝 개입에 사용돼 이질적인 모델 구성을 가능하게 합니다.
실험 결과, PaT는 여러 벤치마크와 모델 패밀리에서 비용-성능 균형을 크게 개선했으며, 이질적인 구성은 추론 비용을 약 69% 줄이면서도 큰 균일 모델과 유사한 성능을 달성했어요.