Elastic-dLLM은 디퓨전 LLM의 비효율적인 계산을 줄이는 새로운 방법입니다. 불필요한 [MASK] 토큰 계산을 압축하여 디코딩 속도를 높이고, 긴 컨텍스트 처리에 용이하도록 합니다.
연구 결과, [MASK] 토큰은 구조적 정보를 제공하는 중요한 역할을 하며, 이를 기반으로 위치 보존 압축 및 증강 기법을 제안했습니다.
LLaDA-8B-Instruct 및 LLaDA-1.5 모델에서 성능 향상을 확인했으며, LLaDA2.0-mini 모델에서는 생성 품질을 높이는 데 활용될 수 있습니다.