Pulse · AI 뉴스

LLM 재현성, 추론 백엔드에 숨겨진 변수: 영향량 측정

vLLM · 2026-05-19

연구진은 LLM 평가 시 추론 백엔드 선택이 최대 16.6%p까지 성능 차이를 발생시키고, 출력 결과 불일치율을 높일 수 있음을 확인했어요.

vLLM, SGLang, llama.cpp 등 5가지 추론 엔진을 비교 분석한 결과, CUDA 그래프, 커스텀 커널, 로짓 처리 등 시스템 최적화가 주요 원인으로 파악됐어요.

연구는 LLM 평가 시 추론 백엔드를 중요한 하이퍼파라미터로 강조하며, 벤치마크 비교의 재현성과 해석 가능성을 높이기 위해 추론 스택 보고를 표준화할 것을 제안해요.

##LLM##추론백엔드##재현성

매일 핵심 AI 소식을 한국어로, 빠르게