연구진은 Qwen3 모델에 학습 가능한 디퓨전 어텐션 모듈을 삽입하는 Orthrus 기술을 개발했어요. 이 기술은 기존 모델의 정확도를 유지하면서 토큰 처리 속도를 획기적으로 향상시켰어요.
Orthrus는 16%의 파라미터만 학습하고 24시간 내에 8개의 H200 GPU에서 학습이 완료되었으며, 기존 디퓨전 LM 대비 정확도 손실 없이 빠른 속도를 제공해요.
단일 단계 디노이징과 KL 증류 방식이 채택되었으며, 현재는 Qwen3 모델에만 적용되었고, 탐욕적 샘플링과 거부 샘플링만 사용되었어요.