Pulse · AI 뉴스

성능 기반 정책 최적화: 추론 속도 향상을 위한 적응형 윈도우

PPOW · 2026-05-15

연구진은 LLM 추론 속도를 높이는 추론 기법 '스펙큐레이티브 디코딩'의 성능을 개선하기 위해 PPOW라는 새로운 강화 학습 프레임워크를 제안했어요.

PPOW는 기존의 토큰 단위 학습에서 벗어나 윈도우 단위로 성능을 최적화하며, Cost-Aware Speedup Reward, Distribution-Based Proximity Reward, Adaptive Divergence-Aware Windowing을 결합했어요.

실험 결과, PPOW는 다양한 모델과 벤치마크에서 평균 수락 길이 6.29~6.52, 최대 4.36배의 속도 향상을 달성하며 스펙큐레이티브 디코딩 효율을 높이는 데 효과적임을 입증했어요.

##LLM##추론##강화학습##스펙큐레이티브디코딩##PPOW
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기