연구진은 하이브리드 추론 LLM의 사고 모드 전환 전략을 평가하는 통합 프레임워크 HRBench를 공개했어요.
HRBench는 전환 전략(프롬프트 기반, 외부 라우팅, 추론)과 학습 방식(학습 불필요, SFT, 오프라인/온라인 RL)을 기준으로 12가지 평가 환경을 설정했어요.
Qwen3.5-2B부터 Kimi-K2.5-1.1T까지 6개 LLM과 수학, 과학, 코딩 벤치마크를 활용하여 분석 결과, 프롬프트 기반 방법은 토큰-정확도 균형이 좋고, 라우팅 방법은 비용 절감 효과가 안정적이며, 추론 방법은 토큰 비용이 높을수록 정확도가 향상되는 경향을 보였어요.
HRBench는 효율적인 추론 연구를 지원하기 위해 데이터, 코드, 저장소를 GitHub에 공개했어요.