연구진이 K-Forcing이라는 새로운 푸시-포워드 언어 모델링 방식을 제안했어요. 이 방식은 기존 AR 모델을 활용해 여러 미래 토큰을 한 번에 예측하여 추론 속도를 높입니다.
K-Forcing은 고정 길이 출력을 유지하며, 기존 AR 모델의 기반 구조를 그대로 사용하고, 표준 AR 서비스 인프라와 호환돼요.
LM1B 및 OpenWebText 데이터셋에서 실험 결과, k=4 토큰을 한 번에 예측할 때 최대 3.5배의 속도 향상을 보였으며, 품질 저하도 적었습니다.