연구진은 테스트 시간 추론의 가치를 분석하여, 불필요한 연산 낭비를 줄이는 'Selective Verification for Reasoning Allocation' (SeVRA)을 제안했어요. SeVRA는 초기 답변을 유지할지, 검증을 실행할지 결정하는 서버 계층 컨트롤러예요.
SeVRA는 Qwen3-4B 솔버를 활용하여, 검증 개입 결과를 기록하고, 서비스 가능한 시도 상태에서 복구 가능성을 고려한 게이트를 학습했어요. MathFive에서 SeVRA는 76.3%의 정확도를 달성하며, 검증 비용을 26.8% 절감하고 유해한 답변 변경을 1.0%로 줄였어요.
CommonsenseQA에서는 항상 검증하는 방식이 성능을 저해하는 반면, Self-Consistency@5는 5배 더 많은 토큰 비용으로 정확도를 향상시켰어요. 이는 초기 연산 예산을 최적화한 후, 필요한 경우 선택적 복구를 사용하는 것이 효과적이라는 것을 보여줘요.
연구 결과, 초기 연산 예산을 먼저 조정하고, 필요한 경우에만 선택적 복구를 사용하는 것이 최적의 비용 효율성을 제공하며, 감사 가능성이나 회귀 위험 관리에 도움이 될 수 있다는 결론을 내렸어요.