연구진은 LLM의 순차적 토큰 생성으로 인한 추론 비용 문제를 해결하기 위해, 가벼운 초안 모델로 여러 미래 토큰을 예측하고 큰 모델로 검증하는 '추론적 디코딩' 기법을 활용했어요.
확산 언어 모델은 블록 단위로 초안 토큰을 병렬 생성하여 순차적 제약을 완화할 수 있어 추론적 디코딩에 적합하며, 훈련 시 목표와 검증 시 보상 간의 불균형이 존재해요.
연구진은 토큰 위치 가중치, 첫 번째 오류에 초점을 맞춘 손실 함수, 연쇄 손실 등 세 가지 훈련 시 개입을 통해 이 간극을 좁혔고, 이 개입들은 서로 직교하며 테스트 시간 정렬 메커니즘과 결합될 수 있어요.