연구진이 O(L) 추론 효율성을 가진 RWKV 모델에 양방향 디퓨전 기술을 통합한 B^3D-RWKV를 제안했어요. 이 모델은 triplet-block 레이아웃 방식으로 병렬 양방향 디스크리트 디퓨전을 구현했어요. B^3D-RWKV-7.2B는 8가지 작업에서 기존 모델과 유사한 정확도를 보이며, 디코딩 처리량에서는 평균 1.6배 빠른 속도를 보여요.
연구진은 기존 Transformer 모델의 순차적 디코딩과 이차 함수에 비례하는 주의 집중 비용 문제를 해결하기 위해 B^3D-RWKV를 개발했어요. 이 모델은 선형 시간 인과 모델과 디스크리트 디퓨전 모델의 장점을 결합하여 양방향 주의 집중이 필요한 디퓨전과 단방향 인과 모델의 불일치를 해소했어요.
B^3D-RWKV는 기존 모델 대비 디코딩 속도가 빠르면서도 정확도도 유지하여 효율적인 양방향 디퓨전 모델의 가능성을 보여줬어요. 이 모델은 RWKV의 O(L) 추론 효율성과 병렬 양방향 디스크리트 디퓨전을 결합하여 새로운 아키텍처를 제시했어요.