vLLM 팀은 vLLM V0에서 V1로 전환 과정에서 훈련 데이터 생성에 사용되는 로그 확률의 정확성을 최우선으로 고려했습니다.
초기 V1 구현은 훈련 과정에서 로그 확률 및 보상에 불일치가 나타났으며, 이는 의미 불일치, 런타임 기본값 차이, 그리고 fp32 lm_head 사용으로 인해 발생했습니다.
vLLM 팀은 4가지 문제를 해결하여 V1이 V0와 동일한 로그 확률을 반환하도록 했으며, 백엔드 동작을 수정하는 데 집중하여 RL 목표를 변경하기 전에 정확성을 확보했습니다.