연구진이 디퓨전 언어 모델(dLLM)의 샘플링 과정에서 토큰을 공개하는 방식, 즉 마스킹 정책을 학습하는 방법을 제시했어요. 기존의 수동 튜닝 방식 대신 학습을 통해 최적의 정책을 찾으면 샘플 품질과 토큰 처리량을 동시에 개선할 수 있어요. 기존의 신뢰도 기반 마스킹 방식은 성능 향상에 기여하지만, 수동 튜닝이 필요하고 성능 저하를 유발할 수 있다는 단점이 있었어요. 연구진은 이러한 문제를 해결하기 위해 학습 가능한 마스킹 정책을 개발했어요.