연구진은 LLM 평가 시 추론 백엔드 선택이 최대 16.6%p까지 성능 차이를 발생시키고, 출력 결과 불일치율을 높일 수 있음을 확인했어요.
vLLM, SGLang, llama.cpp 등 5가지 추론 엔진을 비교 분석한 결과, CUDA 그래프, 커스텀 커널, 로짓 처리 등 시스템 최적화가 주요 원인으로 파악됐어요.
연구는 LLM 평가 시 추론 백엔드를 중요한 하이퍼파라미터로 강조하며, 벤치마크 비교의 재현성과 해석 가능성을 높이기 위해 추론 스택 보고를 표준화할 것을 제안해요.