Pulse · AI 뉴스

vLLM V0에서 V1로: RL에서 교정보다 정확성 우선

Hugging Face · 2026-05-07

vLLM 팀은 vLLM V0에서 V1로 전환 과정에서 훈련 데이터 생성에 사용되는 로그 확률의 정확성을 최우선으로 고려했습니다.

초기 V1 구현은 훈련 과정에서 로그 확률 및 보상에 불일치가 나타났으며, 이는 의미 불일치, 런타임 기본값 차이, 그리고 fp32 lm_head 사용으로 인해 발생했습니다.

vLLM 팀은 4가지 문제를 해결하여 V1이 V0와 동일한 로그 확률을 반환하도록 했으며, 백엔드 동작을 수정하는 데 집중하여 RL 목표를 변경하기 전에 정확성을 확보했습니다.

##vLLM##RL##LLM##inference##backend

매일 핵심 AI 소식을 한국어로, 빠르게