연구진은 선형 어텐션 모델의 컨텍스트 내 연관성 회복 문제를 해결하기 위해 Delta Rule을 개선한 OSDN(Online Scaled DeltaNet)을 제안했습니다.
OSDN은 온라인 하이퍼그라디언트 피드백을 통해 업데이트되는 대각 프리컨디셔너를 도입하여 각 기능별 곡률을 고려하고, 델타넷의 하드웨어 친화적인 병렬 파이프라인을 유지합니다.
실험 결과, 340M 파라미터 규모에서 OSDN은 DeltaNet 대비 JRT 스타일의 컨텍스트 내 회상 능력을 32% 향상시켰으며, 1.3B 파라미터 규모에서도 일반적인 다운스트림 작업에서 성능을 유지하며 회상 잔차 비율을 39% 감소시켰습니다.