RL 학습 후 롤아웃 과정에서 성능 저하를 일으키는 숨겨진 병목 현상을 해결했어요. DAS(Distribution-aware Speculative Decoding)는 추론 디코딩을 적응적으로 개선하여 최대 50% 더 빠르게 만들었어요. DAS는 보상 품질 저하 없이 롤아웃 속도를 향상시켜 RL 학습 효율을 높여요.